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A BRE 


信息 安全 已 成 为 国家 安全 的 重要 组 成 部 分 ,也 是 保障 信息 社会 和 信息 技术 可 持续 发 展 
的 核心 基础 。 信 息 技术 的 迅猛 发 展 和 深度 应 用 必 将 带 来 更 多 难以 解决 的 信息 安全 问题 ,只 
有 掌握 了 信息 安全 的 科学 发 展 规律 , 才 有 可 能 解决 人 类 社会 遇 到 的 各 种 信息 安全 问题 。 但 
科学 规律 的 掌握 非 一 朝 一 夕 之 功 ,治水 、 训 火 .利用 核能 曾经 都 经 历 了 漫长 的 岁月 。 

无 数 事实 证 明 , 人 类 是 有 能 力 发 现 规律 和 认识 真理 的 。 今 天 对 信息 安全 的 认识 ,就 经 历 
了 一 个 从 保密 到 保护 ,又 发 展 到 保障 的 趋 于 真理 的 发 展 过 程 。 信 息 安全 是 动态 发 展 的 ,只 有 
相对 安全 没有 绝对 安全 ,任何 人 都 不 能 宣称 自己 对 信息 安全 的 认识 达到 终极 。 国 内 外 学 者 
已 出 版 了 大 量 的 信息 安全 著作 ,我 和 我 所 领导 的 团队 近 10 年 来 也 出 版 了 一 批 信息 安全 著 
作 , 目 的 是 不 断 提升 对 信息 安全 的 认识 水 平 。 我 相信 有 了 这 些 基 础 和 积累 ,一 定 能 够 推出 更 
高 质量 和 更 高 认识 水 平 的 信息 安全 著作 ,也 必 将 为 推动 我 国信 息 安全 理论 与 技术 的 创新 研 
究 做 出 实质 性 贡献 。 

本 丛书 的 目标 是 推出 系列 具有 特色 和 创新 的 信息 安全 理论 与 技术 著作 ,我 们 的 原则 是 
成 熟 一 本 出 版 一 本 ,不 求 数量 ,只 求 质 量 。 和 希望 每 一 本 书 都 能 提升 读者 对 相关 领域 的 认识 水 
平 ,也 希望 每 一 本 书 都 能 成 为 经 典范 本 。 

我 非常 感谢 清华 大 学 出 版 社 给 我 们 提供 了 这 样 一 个 大 舞台 ,使 我 们 能 够 实施 我 们 的 计 
划 和 理想 ,我 也 特别 感谢 清华 大 学 出 版 社 张 民 老师 的 支持 和 帮助 。 

限于 作者 的 水 平 , 本 丛书 难免 存在 不 足 之 处 , 敬 请 读者 批评 指正 。 
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随 着 信息 技术 的 发 展 和 应 用 ,人 类 社会 所 产生 的 数字 信息 不 断 加 速 并 呈现 爆炸 式 增长 。 
作为 信息 载体 的 大 数据 的 重要 性 不 断 凸 显 ,已 成 为 网 络 空间 中 重要 的 战略 性 资源 。 各 类 数 
据 驱 动 的 应 用 在 金融 、 交 通 、 能 源 、 电 信 等 国民 经 济 重要 行业 、 重 大 基础 设施 运行 中 发 挥 了 重 
要 作用 ,标志 着 人 类 社会 正 步 人 智能 化 时 代 。 正 因为 大 数据 的 价值 举足轻重 ,所 以 在 加 快 推 
动 数据 资源 开放 共享 和 应 用 开发 的 同时 ,必须 构筑 大 数据 安全 保障 体系 ,保护 公民 的 隐私 权 
和 国家 的 大 数据 安全 。 如 何 应 对 大 数据 时 代 的 数据 安全 与 隐私 保护 问题 ,已 成 为 当前 的 研 
究 热 点 。 

本 书 系统 地 介绍 了 大 数据 安全 与 隐私 保护 的 相关 概念 .定义 和 技术 ,阐述 了 二 者 之 间 的 
联系 和 区 别 。 本 书 具有 以 下 特点 : 

(1) 系统 性 强 。 本 书 构建 了 大 数据 安全 与 隐私 保护 技术 框架 ,针对 大 数据 环境 系统 梳 
理 了 散 见 于 各 种 文献 中 的 有 关 理 论 与 方法 ,将 其 归纳 为 安全 存储 与 访问 控制 技术 安全 检索 
技术 ,安全 处 理 ( 也 称 安全 计算 ) 技 术 和 隐私 保护 技术 四 大 类 ,有 助 于 读者 建立 对 大 数据 安全 
与 隐私 保护 的 宏观 认识 ,适合 专业 人 员 快 速 学 习 和 系统 掌握 相关 基础 知识 。 

(2) 内 容 全 面 。 本 书 内 容 不 仅 涵盖 了 大 数据 安全 保护 的 各 项 关键 技术 ,如 安全 存储 与 
访问 控制 技术 ,安全 检索 技术 以 及 同 态 加 密 、 可 验证 计算 等 安全 处 理 技术 ,还 涵盖 了 用 户 数 
据 隐私 保护 技术 ,如 与 社交 网 络 大 数据 、 位 置 轨迹 大 数据 、 差 分 隐私 等 相关 的 新 型 攻击 与 保 
护 技术 。 

O 易于 理解 。 对 于 重点 介绍 的 安全 存储 与 访问 控制 技术 ,安全 检索 技术 、 安 全 处 理 技 
术 和 隐私 保护 技术 ,本 书 从 技术 核心 贡献 、 领 域 发 展 综述 和 最 新 研究 进展 等 不 同 角度 进行 闹 
述 ,深入 浅 出 ,便于 读者 深入 理解 。 

本 书 共 5 章 。 第 1 章 介绍 大 数据 的 基本 概念 和 随 之 带 来 的 新 型 安全 挑战 ,以 及 新 的 安 
全 技术 框架 。 第 2 章 介 绍 大 数据 安全 存储 与 访问 控制 技术 ,包括 传统 的 访问 控制 技术 及 其 
发 展 ,以 及 大 数据 时 代 访 问 控制 技术 面临 的 授权 管理 难度 大 访问 控制 策略 难以 适用 的 新 间 
题 和 解决 方案 。 第 3 章 和 第 4 章 针 对 大 数据 环境 分 别 介 绍 数据 的 安全 检索 和 安全 处 理 技 
术 , 包 括 密 文 检索 、 同 态 加 密 、 可 验证 计算 、 安 全 多 方 计算 、 函 数 加 密 和 外 包 计算 等 技术 。 第 
5 章 介绍 大 数据 场景 下 的 隐私 保护 技术 ,包括 攻击 者 针对 用 户 身 份 隐私 、 社 交 关 系 隐私 、 属 
性 隐私 轨迹 隐私 等 进行 的 各 类 攻击 和 典型 保护 方法 ,以 及 目前 引发 高 度 关注 的 本 地 差分 隐 
私 保 护 技术 。 

本 书 由 汉 登 国 研究 员 规 划 和 统 稿 。 第 1 章 由 汉 登 国 研究 员 执 笔 ,第 2 童 由 李 匡 副 研 究 
员 执 笔 ,第 3 章 由 洪 澄 副 研究 员 、 迟 佳 琳 博士 和 张 敏 研究 员 执笔 ,第 4 章 由 汉 登 国 研究 员 执 
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笔 , 第 5 章 由 付 艳 艳 博士 和 张 敏 研究 员 执 笔 。 

随 着 理论 和 技术 的 不 断 发 展 ,社会 和 研究 人 员 对 数据 安全 和 隐私 保护 的 认识 也 在 不 断 
变化 。 在 这 种 背景 下 ,相关 的 研究 和 应 用 的 边界 也 在 飞速 扩展 , 想 要 在 一 本 书 中 覆盖 大 数据 
安全 与 隐私 保护 的 整个 研究 领域 的 疆界 也 越 来 越 困 难 。 因 此 ,本 书 难免 存在 不 足 之 处 , 敬 请 
读者 多 提 宝 贵 意 见 。 

本 书 得 到 了 国家 自然 科学 基金 项 目 (U1636216) 的 支持 ,得 到 了 大 数据 安全 与 隐私 保 
护 讨论 班 的 老师 和 同学 们 的 帮助 ,也 得 到 了 清华 大 学 出 版 社 的 大 力 支持 ,作者 在 此 一 并 表示 
衷心 的 感谢 。 
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2018 年 春节 于 北京 
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第 1 章 & 论 


内 容 提 要 : 随 着 云 计算 、 物 联网 及 移动 互联 网 等 技术 的 迅速 发 展 , 人 们 已 经 逻 入 大 数据 
时 代 。 大 数据 技术 正在 加 速 推动 数据 资源 的 汇集 ,成 为 当代 社会 由 IT HKG DT 时 代 跃 迁 
的 三 大 产业 支柱 之 一 。 但 与 此 同时 ,大 量 数据 的 融合 、 分 析 与 应 用 对 用 户 带 来 前 所 未 有 的 隐 
私 泄露 威胁 ,引发 学 术 界 、 产 业界 和 广大 互联 网 用 户 的 广泛 关注 。 目 前 ,安全 与 隐私 保护 问 
题 已 成 为 大 数据 技术 中 的 重要 研究 内 容 之 一 。 本 章 介 绍 了 大 数据 的 基本 概念 与 大 数据 时 代 
面临 的 安全 挑战 ,阐述 了 大 数据 生命 周期 各 主要 阶段 所 面临 的 安全 风险 ,提出 了 大 数据 安全 
与 隐私 保护 技术 框架 ,并 介绍 了 一 些 密码 学 基本 概念 。 

关键 词 : 大 数据 ;大 数据 安全 ;隐私 保护 ;安全 挑战 ;安全 风险 ;数据 生命 周期 ;安全 目 
标 ;技术 框架 ;对 称 密码 ; 公 钥 密码 ;分 组 密码 ;序列 密码 ;数字 签名 ;Hash 函数 ;MAC 算法 ; 
密 钥 交换 。 


1.1 大 数据 概述 


当今 随 着 云 计 算 、 物 联网 及 移动 互联 网 等 技术 的 迅速 发 展 , 每 年 新 增 数据 量 呈 现 爆炸 式 
增长 态势 。 据 统计 ,平均 每 秒 都 有 200 万 用 户 在 使 用 谷歌 搜索 ,Facebook 用 户 每 天 共享 的 
信息 超过 40 (ZAR, Twitter 每 天 处 理 的 推 特 数量 超过 3. 4 亿 条 ,等 等 。 除 此 之 外 ,在 科学 计 
算 、 医 疗 卫生 金融 .零售 业 等 各 个 行业 ,每 天 都 有 大 量 数据 源源 不 断 地 产生 , 越 来 越 多 的 人 
们 开始 意识 到 我 们 已 经 进入 大 数据 时 代 。 

大 数据 并 不 仅仅 是 “大 量 的 数据 "”。 在 学 术 界 , 它 代表 了 一 种 新 的 科学 研究 方法 ,图 灵 奖 
获得 者 Jim Gray 提出 了 科学 研究 的 第 四 范式 一 一 数据 探索 (data exploration), 即 以 大 数据 
为 基础 的 数据 密集 型 科学 研究 。 而 在 IT 产业 界 , 大 数据 技术 已 发 展 成 为 涵盖 分 布 式 存储 
与 管理 ,分 布 式 与 并 行 计算 框架 以 及 机 器 学 习 与 人 工 智 能 处 理 等 技术 的 一 个 庞大 技术 体系 。 
其 应 用 遍及 电子 商务 ,交通 、 医 疗 ,金融 等 领域 ,已 成 为 继 云 计算 之 后 信息 技术 领域 的 另 一 个 
产业 增长 点 。 正 如 云 计算 推动 了 计算 资源 与 存储 资源 的 汇集 一 样 ,大 数据 技术 正在 加 速 推 
动 数据 资源 的 汇集 。 通 过 对 海量 数据 的 聚合 分 析 , 人 们 可 以 提取 、 凝 聚 其 中 蕴含 的 信息 与 知 
识 , 从 而 创造 巨大 价值 。 目 前 大 数据 与 云 计 算 、 人 工 智能 一 起 被 公认 为 是 从 IT( 信 息 技术 ) 
时 代 向 DT( 数 据 技术 ) 时 代 跃 迁 的 三 大 产业 支柱 。 


1.1.1 大 数据 来 源 


根据 维基 百科 的 定义 ,大 数据 是 指 规模 大 且 复 杂 , 以 至 于 很 难 用 现 有 数据 库 管理 工具 或 
数据 处 理应 用 来 处 理 的 数据 集 。 它 涵盖 了 数据 采集 、 存 储 、 分 析 、 使 用 等 各 个 方面 ,包括 预测 
分 析 、 用 户 行为 分 析 及 其 他 先进 的 数据 分 析 方 法 在 内 的 .从 大 量 数据 中 提取 有 价值 信息 的 处 
理 方法 。 根 据 来 源 对 象 的 不 同 ,可 以 将 其 分 为 源 自 人 、 机 、 物 等 几 类 的 大 数据 = 。 若 根据 应 
用 领域 划分 , 则 以 下 几 个 是 典型 的 大 数据 来 源 : 
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CO 互联 网 大 数据 。 随 着 社交 网 络 的 成 熟 、 传 统 互联 网 到 移动 互联 网 的 转变 以 及 移动 
宽带 带宽 的 大 幅 提升 , 越 来 越 多 的 网 民 将 个 人 日 常生 活 产生 的 数据 接 和 网络 ,由 此 产生 的 数 
据 量 比 以 往 任 何 时 候 都 多 。 例 如 目前 Google 每 月 处 理 的 数据 超过 400PB, YouTube 每 天 
上 传 7 万 小 时 视频 ,淘宝 单 日 交易 数据 量 超过 50TB,Facebook 每 天 上 传 3 亿 张 照片 并 生成 
300TB 日志, 新 浪 每 分 钟 发 出 数 万 条 微 博 , 等 等 。 人 们 在 使 用 互联 网 以 及 移动 互联 网 过 程 
中 产生 了 大 量 数据 ,包括 文字 、 图 片 .视频 等 信息 。 来 自 互 联网 的 数据 流量 随 着 网 民 数 量 的 
增加 以 及 移动 设备 的 普及 而 急剧 上 升 。 

D 物 联 网 大 数据 。 由 于 当前 物 联网 技术 的 快速 发 展 以 及 在 智能 工业 、 智 能 农业 、 智 能 
交通 、 智 能 电网 .安全 监控 等 行业 的 广泛 应 用 ,各 种 类 型 的 传感器 被 广泛 部 署 。 不 同 的 传 感 
器 可 以 实现 对 温度 ,湿度 .压强 .加 速度 . 光 强 ,距离 等 不 同 物理 信号 的 采集 ,时 时 刻 刻 都 在 产 
生 大 量 数据 。 而 交通 、 安 防 等 领域 所 部 署 的 摄像 设备 产生 的 数字 信和 号 被 源源 不 断 地 采集 、 记 
录 , 也 是 大 数据 的 重要 来 源 之 一 。 

(3) 生物 医学 大 数据 。 人 体 本 身 就 是 无 穷 无 尽 的 生物 医学 大 数据 的 重要 来 源 。 随 着 人 
们 认 知 的 深入 ,现代 医学 可 以 从 更 高 的 精度 观察 .记录 人 体 各 器 官 的 运行 。 生 物 医 学 大 数据 
涉及 临床 医疗 、 公 共 卫 生 、 医 药 研 发 等 多 个 领域 ,类 型 非常 广泛 ,包括 电子 病历 、 医 学 影像 临 
床 实 验 数 据 、 个 人 健康 监测 数据 、 基 因 组 序列 等 。 

此 外 ,电信 大 数据 、 金 融 大 数据 .智慧 城市 大 数据 .交通 大 数据 ,科学 研究 大 数据 等 也 都 
是 大 数据 的 重要 来 源 。 

需要 指出 的 是 ,虽然 大 数据 来 源 越 来 越 多 样 化 ,但 其 中 有 相当 大 的 比例 与 人 直接 相关 。 
有 些 是 人 们 主动 发 布 的 ,例如 微 博 、 照 片 等 ;有 些 是 无 意 中 被 采集 的 ,例如 监控 影像 等 ;有 些 
是 网 络 活 动 痕迹 ;有 些 是 原生 数字 信号 ;有 些 是 由 模拟 化 数据 转化 而 成 的 数字 信号 ;等 等 。 
不 管 怎样 ,这 些 原始 的 “ 微 数据 ”microdata) 都 是 人 们 在 现实 世界 活动 的 真实 记录 ,一 旦 被 
关联 组 织 起 来 就 可 以 释放 巨大 潜力 ,真正 实现 “明察秋毫 ”。 


1.1.2 大 数据 应 用 


大 数据 被 比喻 为 待 开 采 的 “ 金 矿 ”, 其 用 途 是 多 样 化 的 。 目 前 大 数据 技术 已 经 被 广泛 应 
用 于 电子 商务 金融 ,智能 医疗 ,智能 交通 等 领域 ,各 种 新 型 应 用 模式 层出不穷 。 例 如 : 

* 在 互联 网 大 数据 分 析 方面 。 电 子 商 务 平台 通过 对 用 户 网 络 购物 数据 的 分 析 来 构建 
用 户 画 像 , 可 以 更 准确 地 掌握 用 户 购物 倾向 ,向 其 推荐 可 能 感 兴趣 的 产品 ,实现 精准 
营销 ;而 社交 网 络 信息 ,如 twitter 等 ,被 广泛 用 于 股票 预测 、 比 赛 结果 预测 、 餐 馆 热 
度 分 析 甚 至 总 统 选举 预测 等 ,也 被 研究 者 用 于 识别 社团 ,发 现 用 户 的 政治 倾向 、 消 费 
习惯 以 及 喜好 的 球 队 口 习 。 

。 在 交通 大 数据 分 析 方面 。 交 通 管理 部 门 可 以 对 数据 按时 间 切 片 分 析 , 构 建 实时 热点 
分 布 图 ,进行 景区 热力 预警 分 析 ; 还 可 以 基于 历史 数据 分 析 , 对 交通 拥堵 状况 进行 建 
模 预 测 , 合 理 规划 共享 出 行 资源 分 布 ;而 商业 机 构 还 可 以 进一步 通过 对 用 户 习 惯 的 
不 断 学 习 , 为 用 户 提供 个 性 化 的 导航 及 绕 行 建议 服务 等 。 

。 在 医疗 健康 大 数据 分 析 方 面 。 通 过 对 大 量 电子 病历 的 学 习 , 医 学 研究 机 构 可 以 更 清 
晰 地 发 现 疾病 演变 规律 ,并 作出 更 科学 、 准 确 的 诊断 ;而 卫生 管理 部 门 可 以 通过 疾病 
分 布 情况 分 析 , 更 合理 地 分 配 医疗 资源 ,通过 将 影像 学 、 基 因 组 学 等 不 同 模式 的 数据 
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加 以 集成 ,可 以 获得 对 病变 单元 更 为 立体 全 面 的 认 知 ;此 外 ,通过 对 病人 健康 数据 的 
持续 观察 ,还 可 以 为 其 提供 更 为 个 性 化 的 医疗 服务 。 


1.1.3 大 数据 技术 框架 


大 数据 技术 涉及 数据 的 采集 与 预 处 理 、 数 据 分 析 与 解释 等 。 图 1-1 给 出 了 其 相关 技术 
架构 示意 图 。 
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图 1-1 大 数据 技术 架构 示意 图 


l. 数据 采集 与 预 处 理 

数据 采集 与 预 处 理 (data acquisition & preparation) 是 大 数据 应 用 的 基础 。 首 先 需 要 从 
数据 源 采集 数据 并 进行 预 处 理 操作 。 大 数据 的 数据 源 种 类 繁多 ,数据 类 型 多 样 ,包括 数据 
库 、 文 本 、 图 片 、 视 频 、 网 页 等 各 类 结构 化 、 非 结构 化 及 半 结 构 化 数据 。 数 据 采 集 (数据 ) 与 预 
处 理 操 作为 后 继 流程 提供 统一 的 高 质量 的 数据 集 。 

通常 还 需 进行 数据 清洗 处 理 。 由 于 大 数据 的 来 源 不 一 ,可 能 存在 多 种 描述 模式 ,不 同 描 
述 之 间 甚 至 存在 矛盾 。 因 此 ,在 数据 集成 过 程 中 对 数据 进行 清洗 ,以 消除 相似 、 重 复 或 不 一 
致 数据 是 非常 必要 的 。 文 献 [4-6] 针 对 大 数据 的 特点 ,提出 了 非 结 构 化 或 半 结 构 化 数据 的 清 
洗 以 及 超大 规模 数据 的 集成 技术 。 

数据 存储 与 大 数据 应 用 密切 相关 。 某 些 实时 性 要 求 较 高 的 应 用 ,如 状态 监控 ,更 适合 采 
用 流 处 理 模 式 ,直接 在 清洗 和 集成 后 的 数据 源 上 进行 分 析 。 而 大 多 数 其 他 应 用 则 需要 存储 
数据 ,以 支持 后 继 更 深入 的 数据 分 析 流 程 。 为 了 提高 数据 吞吐 量 , 降 低 存 储 成 本 ,通常 采用 
分 布 式 架构 来 存储 大 数据 。 这 方面 有 代表 性 的 研究 包括 文件 系统 GFS, HDFS?, 
Haystack”) 4 p] & NoSQL 数据 库 MongoDB, CouchDB, H Base, Redis, Neo4j 等 。 


2. 数据 分 析 

数据 分 析 (data analytics) 是 大 数据 应 用 的 核心 流程 。 根 据 不 同 的 分 析 层 次 大 致 可 分 为 
计算 架构 ,查询 与 索引 以 及 数据 分 析 与 处 理 3 类 。 

在 计算 架构 方面 ,MapReducer'" 是 当前 广泛 采用 的 大 数据 集 计算 模型 和 框架 。 为 了 适 
应 一 些 对 任务 完成 时 间 要 求 较 高 的 分 析 需 求 , 文 献 [11] 对 其 性 能 进行 了 优化 ;文献 [12] 提 出 
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了 一 种 基于 MapReduce 架构 的 数据 流 分 析 解 决 方案 MARISSA ,使 其 能 够 支持 实时 分 析 任 
务 ;文献 L[13] 提 出 了 基于 时 间 的 大 数据 分 析 方 案 Mastiff; 文 献 [14] 针 对 广告 推送 等 实时 性 
要 求 较 高 的 应 用 ,提出 了 基于 MapReduce 的 TiMR 框架 来 进行 实时 流 处 理 。 

在 查询 与 索引 方面 ,由 于 大 数据 中 包含 了 大 量 的 非 结 构 化 或 半 结 构 化 数据 ,传统 关系 型 
数据 库 的 查询 和 索引 技术 受到 限制 ,而 NoSQL 类 数据 库 技 术 得 到 更 多 关注 。 例 如 ,文献 
[15] 提 出 了 一 个 混合 的 数据 访问 架构 HyDB 以 及 一 种 并 发 数据 查询 及 优化 方法 ,文献 [16] 
对 key-value( 键 - 值 ) 类 型 数据 库 的 查询 进行 了 性 能 优化 。 

在 数据 分 析 与 处 理 方面 ,主要 涉及 的 技术 包括 语义 分 析 与 数据 挖掘 等 。 由 于 大 数据 环 
境 下 数据 呈现 多 样 化 特点 ,所 以 对 数据 进行 语义 分 析 时 ,由 于 难以 统一 术 请 而 影响 对 信息 的 
挖掘 。 文 献 L[17] 针 对 大 数据 环境 提出 了 一 种 解决 术语 变异 问题 的 高 效 术 语 标准 化 方法 , 文 
献 [18] 对 请 义 分 析 中 语义 本 体 的 异 质 性 进行 了 研究 。 传 统 数据 挖掘 技术 主要 针对 结构 化 数 
据 , 因 此 迫切 需要 对 非 结 构 化 或 半 结 构 化 的 数据 挖掘 技术 进行 研究 。 文 献 [19] 提 出 了 一 种 
针对 图 片 文件 的 挖掘 技术 ,文献 [20] 提 出 了 一 种 大 规模 TEXT 文件 的 检索 和 挖掘 技术 。 

3. 数据 解释 

数据 解释 (data interpretation) 旨 在 更 好 地 支持 用 户 对 数据 分 析 结 果 的 使 用 ,涉及 的 主 
要 技术 有 可 视 化 技术 和 人 机 交互 技术 。 

目前 已 经 有 了 一 些 针对 大 规模 数据 的 可 视 化 研究 .5 ,通过 数据 投影 、 维 度 降解 或 显 
示 墙 等 方法 来 解决 大 规模 数据 的 显示 问题 。 由 于 人 类 的 视觉 敏感 度 限制 了 更 大 屏幕 显示 的 
有 效 性 ,以 人 为 中 心 的 人 机 交互 设计 也 将 是 解决 大 数据 分 析 结 果 展 示 的 一 种 重要 技术 。 


4. 数据 传输 .虚拟 集群 等 其 他 支撑 技术 

虽然 大 数据 应 用 强调 以 数据 为 中 心 ,将 计算 推送 到 数据 上 执行 ,但 是 在 整个 处 理 过 程 
中 ,数据 传输 (data transmission) 仍 然 是 必 不 可 少 的 ,例如 一 些 科学 观测 数据 从 观测 点 向 数 
据 中 心 的 传输 等 。 文 献 L[23,24] 针 对 大 数据 特征 研究 了 高 效 传输 架构 和 协议 。 

此 外 ,由 于 虚拟 集群 (virtual cluster) 具 有 成 本 低 .搭建 灵活 、 便 于 管理 等 优点 ,在 大 数据 
分 析 时 可 以 选择 更 加 方便 的 虚拟 集群 来 完成 各 项 处 理 任务 ,因此 ,需要 针对 大 数据 应 用 展开 
虚拟 机 集群 优化 研究 25] 。 


1.2 大 数据 安全 与 隐私 保护 需求 


科学 技术 是 一 把 双 刃 剑 。 大 数据 在 带 来 巨大 价值 的 同时 ,也 引入 了 大 量 的 安全 风险 与 
技术 挑战 。 要 合理 利用 大 数据 ,首先 应 满足 其 安全 需求 与 隐私 保护 需求 ,这 两 者 既 相 互 关联 
又 有 所 不 同 , 下 面子 以 分 别 讨论 。 


1.2.1 大 数据 安全 


大 数据 普遍 存在 巨大 的 数据 安全 需求 。 大 数据 由 于 价值 密度 高 ,往往 成 为 众多 黑客 凯 
饥 的 目标 ,吸引 了 大 量 攻 击 者 逛 而 走 险 。 例 如 ,全 球 互联 网 巨头 雅虎 曾 被 黑客 攻破 了 用 户 账 
户 保护 算法 ,导致 数 以 亿 级 的 用 户 账户 信息 泄露 。 雅 虎 证 实 其 在 2013 年 与 2014 年 分 别 被 
未 经 授权 的 第 三 方 资 取 了 超过 10 亿 和 5 亿 用 户 的 账户 信息 ,内 容 涉 及 用 户 姓 名 、 电 子 邮 箱 、 
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电话 号 码 、 出 生日 期 和 部 分 登录 密码 。 我 国 也 爆发 过 “2000 万 条 酒店 开房 数据 泄露 ”等 若干 
安全 事件 ,引起 全 社会 广泛 关注 。 不 仅 如 此 , 因 内 部 人 员 盗窃 数据 而 导致 损失 的 风险 也 不 容 
小 筑 。 资 取 和 贩卖 用 户 数 据 的 案例 屡见不鲜 。 例 如 在 2017 年 ,我国 某 著名 互联 网 公司 内 部 
员工 盗 取 并 贩卖 涉及 交通 物流、 医疗 ,社交 银行 等 个 人 信息 50 亿 条 ,通过 各 种 方式 在 网 络 
黑市 贩卖 。 管 理 咨询 公司 埃 森 哲 等 研究 机 构 2016 年 发 布 的 一 项 调查 研究 结果 显示 ,其 调查 
的 208 家 企业 中 ,69%% 的 企业 曾 在 过 去 一 年 内 “ 遭 公 司 内 部 人 员 寡 取 数据 或 试图 盗 取 ”。 

经 典 的 数据 安全 需求 包括 数据 机 密 性 .完整 性 和 可 用 性 等 ,其 目的 是 防止 数据 在 数据 传 
输 、 存 储 等 环节 中 被 泄露 或 破坏 。 通 常 实现 信息 系统 安全 需要 结合 攻击 路 径 分 析 、 系 统 脆弱 
性 分 析 以 及 资产 价值 分 析 等 ,全 面 评估 系统 面临 的 安全 威胁 的 严重 程度 ,并 制定 对 应 的 保 
护 、 响 应 策略 ,使 系统 达到 物理 安全 、 网 络 安 全 、 主 机 安全 、 应 用 安全 和 数据 安全 等 各 项 安全 
要 求 。 而 在 大 数据 场景 下 ,不 仅 要 满足 经 典 的 信息 安全 需求 ,还 必须 应 对 大 数据 特性 所 带 来 
的 各 项 新 技术 挑战 。 

挑战 之 一 是 如 何在 满足 可 用 性 的 前 提 下 保护 大 数据 机 密 性 。 安 全 与 效率 之 间 的 平衡 一 
直 是 信息 安全 领域 关注 的 重要 问题 ,但 在 大 数据 场景 下 ,数据 的 高 速 流动 特性 以 及 操作 多 样 
性 使 得 安全 与 效率 之 间 的 矛盾 更 加 突出 。 以 数据 加 密 为 例 , 它 是 实现 敏感 数据 机 密 性 保护 
的 重要 措施 之 一 。 但 大 数据 应 用 不 仅 对 加 密 算法 性 能 提出 了 更 高 的 要 求 , 而 且 要 求 密 文具 
备 适应 大 数据 处 理 的 能 力 ,例如 数据 检索 与 并 发 计算 等 。 目 前 在 产业 界 中 ,为 了 尽量 不 影响 
运行 效率 , 绝 大 多 数 大 数据 应 用 的 数据 都 处 于 不 加 密 的 “裸奔 ”状态 ,安全 形势 极其 严峻 。 

挑战 之 二 是 如 何 实现 大 数据 的 安全 共享 。 访 问 控制 是 实现 数据 受 控 共 享 的 经 典 手段 之 
一 。 但 在 大 数据 访问 控制 中 ,用 户 难以 信赖 服务 商 能 够 正确 实施 访问 控制 策略 , 且 在 大 数据 
应 用 中 实现 用 户 角 色 与 权限 划分 更 为 困难 。 以 医疗 领域 应 用 为 例 ,一 方面 医生 为 了 完成 其 
工作 可 能 需要 访问 大 量 信息 ,专业 性 很 强 , 安 全 管理 员 难 以 一 一 设置 ;但 另 一 方面 又 需要 对 
医生 行为 进行 监测 与 控制 ,限制 医生 对 病 患 数据 的 过 度 访问 。 因 此 ,实现 大 数据 访问 控制 不 
仅 需 要 智能 化 的 安全 策略 管理 ,而 且 需 要 可 信 的 访问 控制 策略 实施 机 制 。 

挑战 之 三 是 如 何 实现 大 数据 真实 性 验证 与 可 信 溯 源 。 当 一 定数 量 的 虚假 信息 混杂 在 真 
实 信息 中 时 ,往往 容易 导致 人 们 误 判 。 例 如 ,一 些 点 评 网 站 上 的 虚假 评论 可 能 误导 用 户 去 选 
择 某 些 劣质 商品 或 服务 。 导 致 大 数据 失真 的 原因 是 多 种 多 样 的 ,包括 伪造 或 刻意 制造 的 数 
据 干 扰 、 人 工 干 预 的 数据 采集 过 程 中 引入 的 误差 ,在 传播 中 的 逐步 失真 .数据 源 更 新 与 失效 
等 ,这 些 因 素 都 可 能 最 终 影响 数据 分 析 结 果 的 准确 性 。 需 要 基于 数据 的 来 源 真实 性 ,传播 途 
径 、 加 工 处 理 过 程 等 ,了 解 各 项 数据 可 信 度 ,防止 分 析 得 出 无 意义 甚至 错误 的 结果 。 


1.2.2 大 数据 隐私 保护 


由 于 有 相当 一 部 分 大 数据 是 源 自 人 的 ,所 以 除 安全 需求 外 ,大 数据 普遍 还 存在 隐私 保护 
需求 。 大 量 事实 表明 ,未 能 妥善 处 理 隐私 保护 问题 会 对 用 户 造成 极 大 的 侵害 。 

以 往 企 业 认 为 ,数据 经 过 匿名 处 理 后 ,不 包含 用 户 的 标识 符 , 就 可 以 公开 发 布 了 。 但 事 
实 上 , 仅 通 过 这 种 简单 匿名 保护 并 不 能 达到 隐私 保护 目标 。 例 如 ,美国 AOL 公司 曾 公布 了 
匿名 处 理 后 的 3 个 月 内 的 一 部 分 搜索 历史 供 人 们 分 析 使 用 。 虽 然 个 人 相关 的 标识 信息 被 精 
心 处 理 过 了 ,但 利用 其 中 的 某 些 记录 项 还 是 可 以 准确 地 定位 到 具体 的 个 人 .《 纽 约 时 报 》 随 
即 公布 了 其 识别 出 的 编号 为 4417749 的 用 户 是 一 位 62 BSI A, RERET 3 条 狗 ,并 
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患 有 某 种 疾病 ,等 等 。 另 一 个 相似 的 例子 是 ,著名 的 DVD 租赁 商 Netflix 曾 公 布 了 约 50 万 
个 用 户 的 租赁 信息 ,悬赏 100 万 美元 征集 算法 ,以 期 提高 电影 推荐 系统 的 准确 度 。 但 是 当 上 
述 信息 与 其 他 数据 源 交 叉 对 比 时 ,部 分 用 户 还 是 被 识别 出 来 了 。 研 究 者 发 现 ,Netflix 中 的 
用 户 有 很 大 概率 对 非 top100 ,top500 ,top1000 的 影片 进行 过 评分 ,而 根据 对 非 top 影片 的 评 
分 结果 进行 去 匿名 化 (de-anonymizing) 攻 击 的 效果 更 好 5 。 而 Netflix 公司 也 因 公 开 的 数 
据 暴露 了 用 户 的 性 取向 和 政治 倾向 而 遭 到 大 量 用 户 的 起 诉 , 造 成 了 狠 动 一 时 的 “断背 山 效 
应 ”(brokeback mountain factor) 。 大 量 研究 表明 , 仅 数据 发 布 时 做 简单 的 去 标识 处 理 已 经 
无 法 保证 用 户 隐私 安全 ,通过 链接 不 同 数据 源 的 信息 ,攻击 者 可 能 发 起 身份 重 识别 攻击 (re- 
identification attack) ,逆向 分 析出 匿名 用 户 的 真实 身份 ,导致 用 户 的 身份 隐私 泄露 。 

由 于 去 匿名 化 技术 的 发 展 ,实现 身份 匿名 越 来 越 困 难 。 攻 击 者 可 从 更 多 的 渠道 获取 数 
据 , 通 过 多 数据 源 的 交叉 比 对 ,协同 分 析 等 手段 可 对 个 人 隐私 信息 进行 更 精准 的 推测 ,使 原 
有 基于 模糊 、 扰 动 技术 的 匿名 方案 失效 。 不 仅 同 质数 据 源 可 以 去 匿名 化 ,不 同类 型 数据 之 间 
也 可 以 关联 。 通 过 搜集 用 户 的 旅游 签到 、 电 影 点 评 、 购 物 记录 等 足够 多 的 信息 碎片 ,将 跨 应 
用 的 不 同 账号 联系 起 来 ,将 用 户 不 同 侧面 的 信息 联系 起 来 ,也 可 以 识别 出 用 户 的 真实 身份 。 
例如 新 浪 微 博 明 星 小 号 曝光 导致 明星 形象 危机 的 事件 层出不穷 。 此 外 ,用 户 轨迹 ,行为 分 析 
也 可 能 导致 用 户 个 人 身份 泄露 。 例 如 在 150 万 用 户 15 个 月 的 手机 通信 位 置 记录 中 ,即使 将 
用 户 的 位 置 模糊 扩大 到 基站 范围 , 仍 有 95% 的 用 户 可 通过 4 个 位 置 点 唯一 地 被 区 别 出 
SET) 。 此 外 ,通过 匹配 用 户 的 地 点 转移 规律 5 统计 用 户 对 不 同 地 点 的 喜好 程度 [9 识别 
出 个 性 化 的 家 庭 地 址 -单位 地 址 对 ”3 、 将 地 理 位 置 作为 准 标识 符 593 等 方法 均 可 以 识别 用 
户 身份 。 一 旦 用 户 身份 通过 其 个 性 化 的 轨迹 信息 被 识别 出 来 ,将 导致 用 户 其 他 隐私 信息 
泄露 。 

此 外 ,人 们 面临 的 威胁 并 不 仅 限于 个 人 隐私 泄露 ,还 有 基于 大 数据 对 人 们 状态 和 行为 的 
预测 。 随 着 深度 学 习 等 人 工 智 能 技术 的 快速 发 展 ,通过 对 用 户 行为 建 模 与 分 析 , 个 人 行为 规 
律 可 以 被 更 为 准确 地 预测 与 识别 ,刻意 隐藏 的 敏感 属性 可 以 被 推测 出 来 。 以 社交 网 络 为 例 ， 
由 于 社交 网 络 中 的 拓扑 结构 增加 了 用 户 间 的 联系 ,可 通过 用 户 的 朋友 具有 的 属性 、 用 户 加 入 
的 群 组 等 属性 推测 用 户 可 能 具有 的 属性 ,用 户 所 隐藏 的 敏感 属性 很 可 能 被 挖掘 并 公布 出 来 。 
例如 通过 分 析 用 户 的 Twitter 信息 ,可 以 发 现 用 户 的 政治 倾向 、 消 费 习 惯 以 及 喜好 的 球 队 
SCT 。 此 外 , 随 着 互联 网 用 户 数据 的 积累 ,用 户 行为 所 表现 出 来 的 共性 和 规律 性 成 为 人 们 
挖掘 的 重点 。 例 如 ,研究 者 基于 用 户 历史 轨迹 建立 隐 马 尔 可 夫 模型 ,利用 此 模型 可 成 功 地 对 
用 户 出 行 的 目的 地 进行 预测 23 ,甚至 预测 用 户 即将 出 现 的 地 点 29 。 通 过 用 户 的 社交 关系 
和 访问 地 理 位 置 分 布 , 可 向 用 户 推荐 其 可 能 感 兴趣 的 新 地 点 5 。 

总 体 而 言 ,目前 用 户 数据 的 收集 、 存 储 、 管 理 与 使 用 等 均 缺 乏 规范 ,更 缺乏 监管 ,主要 依 
靠 企业 的 自律 。 用 户 无 法 确定 自己 的 隐私 信息 的 用 途 。 而 在 商业 化 场景 中 ,用 户 应 有 权 决 
定 自己 的 信息 如 何 被 利用 ,实现 用 户 可 控 的 隐私 保护 。 例 如 用 户 可 以 决定 自己 的 信息 何 时 
以 何 种 形式 披露 , 何 时 被 销毁 ,主要 包括 数据 采集 时 的 隐私 保护 、 数 据 共 享 和 发 布 时 的 隐私 
保护 .数据 分 析 时 的 隐私 保护 ,数据 生命 周期 的 隐私 保护 以 及 隐私 数据 可 信和 销毁 等 。 


1.2.3 大 数据 安全 与 大 数据 隐私 保护 的 区 别 与 联系 
在 讨论 隐私 保护 需求 时 ,一 般 仅 聚 焦 于 匿名 性 。 而 大 数据 安全 需求 更 为 广泛 ,关注 的 目 
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标 不 仅 包括 数据 机 密 性 ,还 包括 数据 完整 性 、 真 实 性 、 不 可 否认 性 以 及 平台 安全 、 数 据 权 属 判 
定 等 。 另 外 ,虽然 隐私 保护 中 的 数据 匿名 需求 与 安全 需求 之 一 的 机 密 性 需求 看 上 去 比较 类 
似 , 但 后 者 显然 严格 得 多 。 匿 名 性 仅 防止 攻击 者 将 已 经 公布 的 信息 与 现实 中 的 用 户 联 系 起 
来 ,数据 本 身 并 不 具有 敏感 性 ,完全 可 以 在 充分 匿名 后 用 于 数据 共享 分 析 ; 而 机 密 性 则 要 求 
数据 对 于 非 授权 用 户 是 完全 不 可 访问 的 。 

我 们 在 分 析 大 数据 安全 问题 时 ,一 般 来 说 数据 对 象 是 有 明确 定义 的 ,可 以 是 某 个 具体 数 
据 , 也 可 以 是 一 个 信息 系统 中 的 全 体 信息 ,例如 某 个 大 数据 中 心 所 存储 的 数据 内 容 等 。 而 在 
涉及 隐私 保护 需求 时 所 指 的 用 户 “ 隐 私 ? 则 较为 笼统 ,可 能 存在 多 种 数据 形态 。 例 如 用 户 敏 
感 属性 隐私 既 可 能 显 式 存储 于 某 项 数据 条 目 ,也 可 能 隐 式 存在 于 其 他 公开 属性 中 ,可 由 公开 
属性 推理 而 知 。 广 为 人 知 的 由 用 户 的 历史 购物 信息 推理 出 顾客 是 否 为 孕妇 的 案例 就 属于 这 
种 情况 。 而 且 , 关 于 “隐私 ”范围 的 界定 目前 存在 大 量 争议 ,不 完全 属于 技术 范畴 。 





1.3 大 数据 生命 周期 安全 风险 分 析 


大 数据 的 生命 周期 包括 数据 产生 、 采 集 、 传 输 、 存 储 、 分 析 与 使 用 、 分 享 、 销 毁 等 诸多 环 
节 , 每 个 环节 都 面临 不 同 的 安全 威胁 。 其 中 ,安全 问题 较为 突出 的 是 数据 采集 、 数 据 传 输 、 数 
rg 数据 分 析 与 使 用 4 个 阶段 ,其 关系 如 图 1-2 所 示 。 本 节 讨 论 这 些 阶 段 所 面临 的 安全 
风险 ,这 些 安全 风险 是 大 数据 安全 与 隐私 保护 技术 选 型 的 主要 依据 。 


数据 采集 数据 存储 数据 分 析 与 使 用 
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图 1-2 大 数据 生命 周期 中 的 采集 传输 存储、 分 析 与 使 用 4 个 阶段 的 关系 





1.3.1 数据 采集 阶段 


数据 采集 是 指 采集 方 对 于 用 户 终端 .智能 设备 .传感器 等 产生 的 数据 进行 记录 与 预 处 理 
的 过 程 。 在 大 多 数 应 用 中 ,数据 不 需要 预 处 理 即 可 直接 上 传 ;而 在 某 些 特殊 场景 下 ,例如 传 
输 带 宽 存在 限制 或 采集 数据 精度 存在 约束 时 ,数据 采集 方 需要 先进 行 数据 压缩 、 变 换 甚至 加 
噪 处 理 等 步 又 ,以 降低 数据 量 或 精度 。 一 旦 真实 数据 被 采集 , 则 用 户 隐私 保护 完全 脱离 用 户 
自身 控制 ,因此 ,数据 采集 是 数据 安全 与 隐私 保护 的 第 一 道 屏障 ,可 根据 场景 需求 选择 安全 
多 方 计算 等 密码 学 方法 ,或 选择 本 地 差分 隐私 等 隐私 保护 技术 。 


1.3.2 数据 传输 阶段 


数据 传输 是 指 将 采集 到 的 大 数据 由 用 户 端 ,智能 设备 .传感器 等 终端 传送 到 大 型 集中 式 
数据 中 心 的 过 程 。 数 据 传输 阶段 中 的 主要 安全 目标 是 数据 安全 性 。 为 了 保证 数据 内 容 在 传 
输 过 程 中 不 被 恶意 攻击 者 收集 或 破坏 ,有 必要 采取 安全 措施 保证 数据 的 机 密 性 和 完整 性 。 
现 有 的 密码 技术 已 经 能 够 提供 成 熟 的 解决 方案 ,例如 目前 普遍 使 用 的 SSL 通信 加 密 协议 或 
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专用 加 密 机 、VPN 技术 等 。 
1.3.3 数据 存储 阶段 


大 数据 被 采集 后 常 汇集 并 存储 于 大 型 数据 中 心 ,而 大 量 集中 存储 的 有 价值 数据 无 疑 容 
易 成 为 某 些 个 人 或 团体 的 攻击 目标 。 因 此 ,大 数据 存储 面临 的 安全 风险 是 多 方面 的 ,不 仅 包 
括 来 自 外 部 黑客 的 攻击 、 来 自 内 部 人 员 的 信息 窃取 ,还 包括 不 同 利益 方 对 数据 的 超 权 限 使 用 
等 。 因 此 ,该 阶段 集中 体现 了 数据 安全 ,平台 安全 、 用 户 隐私 保护 等 多 种 安全 需求 ,是 本 书 讨 
论 的 重点 。 


1.3.4 数据 分 析 与 使 用 阶段 


大 数据 采集 传输、 存 储 的 主要 目的 是 为 了 分 析 与 使 用 ,通过 数据 挖掘 、 机 器 学 习 等 算法 
处 理 , 从 而 提取 出 所 需 的 知识 。 本 阶段 的 焦点 在 于 如 何 实现 数据 挖掘 中 的 隐私 保护 ,降低 多 
源 异 构 数 据 集成 中 的 隐私 泄露 ,防止 数据 使 用 者 通过 数据 挖掘 得 出 用 户 刻 意 隐 藏 的 知识 , 防 
止 分 析 者 在 进行 统计 分 析 时 得 到 具体 用 户 的 隐私 信息 。 


1.4 大 数据 安全 与 隐私 保护 技术 框架 


从 1.3 节 可 以 看 出 ,大 数据 生命 周期 各 个 阶段 的 安全 目标 各 有 侧重 : 在 数据 传输 阶段 ， 
安全 需求 是 重点 ;在 数据 采集 与 数据 分 析 阶 段 , 隐 私 保 护 需求 更 为 突出 ;而 在 数据 存储 阶段 
则 是 两 者 并 重 。 

不 同 的 安全 需求 与 隐私 保护 需求 一 般 需 要 相应 的 技术 手段 支撑 。 例 如 ,针对 数据 采集 
阶段 的 隐私 保护 需求 ,可 以 采用 隐私 保护 技术 ,对 用 户 数据 做 本 地 化 的 泛 化 或 随机 化 处 理 。 
针对 数据 传输 阶段 的 安全 需求 ,可 以 采用 密码 技术 实现 。 而 对 于 包含 用 户 隐私 信息 的 大 数 
据 , 则 既 需 要 采用 数据 加 密 、 密 文 检索 等 安全 技术 实现 其 安全 存储 ,又 需要 在 对 外 发 布 前 采 
用 匿名 化 技术 进行 处 理 。 但 这 种 技术 划分 也 并 不 是 绝对 的 ,相同 的 需求 可 以 用 不 同 技术 手 
段 实 现 。 以 位 置 隐私 保护 为 例 ,虽然 传统 上 多 采用 泛 化 、 失 真 等 隐私 保护 技术 实现 ,但 也 有 
学 者 提出 应 用 密 文 二 维 区 间 检 索 技 术 进 一 步 提 高 安全 性 ;又 如 ,访问 控制 技术 曾经 构建 于 安 
全 定理 的 形式 化 分 析 与 证 明之 上 ,而 现在 却 依赖 于 机 器 学 习 算法 分 析 结 果 。 近 年 来 各 类 技 
术 之 间 的 交叉 融合 日 益 明显 。 

总 之 ,大 数据 安全 技术 与 隐私 保护 技术 互 为 补充 ,统一 构成 完整 的 大 数据 安全 与 隐私 保 
护 技术 框架 , 见 图 1-3。 下 面 对 其 主要 组 成 部 分 予以 简要 介绍 。 


1.4.1 大 数据 安全 技术 

如 前 所 述 , 大 数据 安全 技术 由 在 解决 数据 在 传输 、 存 储 与 使 用 各 个 环节 面临 的 安全 威 
胁 。 其 面临 的 核心 挑战 在 于 满足 数据 机 密 性 、 完 整 性 、 真 实 性 等 安全 目标 的 同时 ,支持 高 效 
的 数据 查询 、 计 算 与 共享 。 本 书 重 点 介绍 以 下 几 类 关键 技术 。 

1. 大 数据 访问 控制 

大 数据 访问 控制 包括 采用 和 不 采用 密码 技术 两 种 技术 路 线 。 前 者 的 代表 是 密 文 访问 控 
制 ,无 须 依赖 可 信 引 用 监控 器 ,安全 性 强 , 但 加 密 带 来 的 计算 负担 影响 性 能 。 后 者 的 主要 代 
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图 1-3 大 数据 安全 技术 与 隐私 保护 技术 框架 


表 是 角色 挖掘 、 风 险 自 适应 访问 控制 ,其 特点 是 效率 高 .灵活 度 高 ,但 依赖 可 信 引 用 监控 器 实 
施 数据 的 安全 策略 ,面临 可 信 引 用 监控 器 构建 困难 的 问题 。 

1) 基于 密码 学 的 访问 控制 

为 了 保障 云 环境 中 数据 的 安全 共享 ,数据 属 主 需要 确保 解密 密 钥 只 授权 给 合法 用 户 ,这 
通常 使 用 基于 密码 学 的 访问 控制 技术 来 解决 。 根 据 使 用 的 加 密 算法 类 型 可 大 致 分 为 两 类 : 
一 类 基于 传统 的 公 钥 密码 学 , 另 一 类 基于 函数 加 密 ( 也 称 功能 加 密 ) 的 公 钥 密码 学 。 前 者 基 
于 传统 的 公 钥 密码 学 (如 公 钥 基础 设施 (PKI) 等 ) 保 护 数 据 的 加 密 密 钥 ,或 将 其 存储 在 专门 
的 “ 锁 盒 ”里 。 后 者 是 一 种 新 的 公 钥 加 密 技术 ,支持 细 粒 度 访 问 控制 和 丰富 的 策略 表达 方式 。 
属性 加 密 (ABE, 也 称 基于 属性 的 加 密 或 属性 基 加 密 ) 是 一 种 典型 的 函数 加 密 , 当 前 ABE 密 
文 访问 控制 技术 的 研究 主要 集中 在 权限 撤销 、 多 权威 机 构 等 方面 。 

2) 角色 挖掘 

角色 挖掘 起 源 于 基于 角色 的 访问 控制 ,能 够 辅助 管理 员 发 现 系统 中 的 潜在 角色 ,从 而 简 
化 管理 员 的 权限 管理 工作 。 由 于 大 数据 应 用 中 数据 规模 巨大 且 复 杂 , 自 动 化 地 对 角色 进行 
挖掘 并 完成 授权 是 RBAC 类 系统 发 展 的 必然 趋势 。 其 中 ,基于 机 器 学 习 的 角色 挖掘 技术 可 
用 性 更 强 , 角 色 可 合理 解释 ,而 且 策略 反映 权限 实际 使 用 情况 。 生 成 角色 模型 用 途 广 泛 , 既 
可 用 于 策略 中 错误 的 发 现 和 标识 ,也 可 用 于 权限 使 用 过 程 中 的 异常 检测 。 

3) 风险 自 适应 访问 控制 

针对 大 数据 场景 中 安全 管理 员 缺 乏 足 够 的 专业 知识 ,无 法 准确 地 为 用 户 分 配 数据 访问 
权限 的 问题 ,人 们 提出 了 风险 自 适应 访问 控制 技术 ,将 风险 量化 并 为 使 用 者 分 配 访问 配额 。 
评估 并 积累 用 户 访问 资源 的 安全 风险 , 当 用 户 访问 的 资源 的 风险 数值 高 于 某 个 预定 的 门限 
时 ,限制 用 户 继续 访问 。 通 过 合理 定义 与 量化 风险 ,提供 动态 . 自 适应 的 访问 控制 服务 。 
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2. 安全 检索 

加 密 是 保护 云 环境 中 数据 安全 的 重要 手段 ,但 是 密 文 数据 的 高 效 使 用 离 不 开 密 文 检索 ， 
典型 需求 包括 关键 词 检索 与 区 间 检 索 。 前 者 又 常 被 称 为 可 搜索 加 密 (searchable 
encryption) ,包括 对 称 可 搜索 加 密 和 非 对 称 可 搜索 加 密 。 后 者 又 可 以 进一步 划分 为 单 维 、 
二 维和 多 维 区 间 检 索 。 除 密 文 检索 外 ,安全 检索 还 包括 隐秘 信息 获取 (PIR) 以 及 健忘 RAM 
(Oblivious RAM,ORAM) 等 多 种 类 型 。 

1) PIR 系列 与 ORAM 

隐秘 信息 获取 是 源 于 数据 库 检 索 领 域 的 一 种 安全 需求 , 指 用 户 在 不 向 远 端 服务 器 暴露 
查询 意图 的 前 提 下 对 服务 器 的 数据 进行 查询 并 取得 指定 数据 ;Oblivious RAM 在 读 写 过 程 
中 向 服务 器 端 隐藏 访问 模式 等 。 两 者 均 关注 用 户 保护 访问 模式 ,防止 用 户 的 意图 被 攻击 者 
或 服务 器 探知 ,区 别 在 于 后 者 同时 还 关注 数据 机 密 性 。 

2) 对 称 可 搜索 加 密 

可 搜索 加 密 研 究 快速 检索 出 包含 特定 关键 词 或 满足 关键 词 布尔 表达 式 的 密 文 文档 的 方 
法 。 对 称 可 搜索 加 密 (Symmetric Searchable Encryption,SSE) 适 用 于 数据 提交 者 与 查询 者 
相同 的 使 用 场景 。SSE 经 历 了 顺序 查询 . 倒 排 索引 、 索 引 树 等 构造 发 展 历程 ,当前 查询 性 能 
已 有 了 极 大 提升 。 它 关注 的 安全 目标 由 基础 性 的 选择 关键 字 语 义 安全 (如 IND-CKA、 
IND2-CKA 等 ) 扩 展 至 查询 模式 安全 性 、 查 询 的 前 向 安全 性 等 多 种 安全 性 质 。 相 关 研 究 包 
括 多 关键 字 查 询 ,模糊 查询 、Top-k 查询 和 多 用 户 SSE 等 。 

3) 非 对 称 可 搜索 加 密 

与 SSE 不 同 , 非 对 称 可 搜索 加 密 (Asymmetric Searchable Encryption, ASE) 的 主要 应 
用 场景 是 第 三 方 检索 。 由 于 数据 所 有 者 与 检索 者 不 是 同一 个 人 ,所 以 一 般 采用 公 钥 技术 实 
现 关键 词 陷 门生 成 与 检索 。 

4) 密 文 区 间 检 索 

密 文 区 间 检 索 是 实际 应 用 中 另 一 大 类 重要 需求 , 旨 在 利用 数据 之 间 存 在 的 顺序 关系 ,不 
必 按 顺序 扫描 ,而 以 更 快速 的 方法 查找 指定 区 间 的 数据 。 典 型 方案 包括 近邻 数据 分 桶 \ 保 序 
加 密 、 密 文 索引 树 等 。 各 类 方案 提供 不 同 程度 的 安全 性 ,例如 方案 是 否 暴露 所 有 数据 间 的 顺 
序 关系 、 查 询 条 件 上 下 界 的 大 小 关系 、 区 间 之 间 的 包含 关系 等 。 各 类 方案 的 效率 也 存在 显著 
差异 ,一 个 优秀 的 密 文 区 间 检 索 方法 能 很 好 地 实现 检索 效率 与 安全 性 之 间 的 平衡 。 

3. 安全 计算 

安全 计算 (也 称 安全 处 理 ) 的 目的 是 在 复杂 、 恶 劣 的 环境 下 以 安全 的 方式 计算 出 正确 结 
果 , 包 括 同 态 加 密 、 可 验证 计算 、 安 全 多 方 计算 、 函 数 加 密 、 外 包 计 算 等 。 

1) 同 态 加 密 

同 态 加 密 技术 既 可 处 理 加 密 数 据 又 可 维持 数据 的 机 密 性 。 支 持 单一 运算 的 同 态 加 密 算 
法 的 设计 是 一 件 比 较 容 易 的 事情 ,但 同时 支持 加 法 和 乘法 运算 的 同 态 加 密 算法 ( 即 全 同 态 加 
密 算法 ) 从 提出 到 解决 经 历 了 30 多 年 的 历程 ,最 终 是 由 Gentry 博士 于 2009 年 解决 的 ,他 基 
于 “理想 格 ” 构 造 了 全 同 态 加 密 方案 。 

2) 可 验证 计算 

可 验证 计算 是 实现 外 包 计算 的 完整 性 即 正确 性 的 最 可 靠 的 技术 , 它 通 过 使 用 密码 学 工 
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具 , 确 保 外 包 计算 的 完整 性 ,而 无 须 对 服务 器 失败 率 或 失败 的 相关 性 做 任何 假设 。 构 造 大 多 
数 可 验证 计算 的 基础 是 概率 检测 证 明 。 目 前 最 有 代表 性 、 最 有 效 的 可 验证 计算 主要 有 3 类， 
分 别 是 基于 承诺 、 同 态 加 密 和 交互 构造 的 方法 。 

3) 安全 多 方 计算 

安全 多 方 计算 的 目的 是 使 得 多 个 参与 方 能 够 以 一 种 安全 的 方式 正确 执行 分 布 式 计算 任 
务 , 每 个 参与 方 除 了 自己 的 输入 和 输出 以 及 由 其 可 以 推出 的 信息 外 得 不 到 任何 额外 信息 。 
相关 工作 包括 安全 计算 布尔 电路 的 安全 多 方 协议 和 安全 计算 算术 电路 的 安全 多 方 计 算 两 大 
类 。 大 多 数 安全 地 计算 布尔 电路 的 安全 多 方 计算 协议 是 基于 Yao 的 混淆 电路 技术 ,将 计算 
函数 表示 为 布尔 电路 ,并 在 半 诚 实 模型 下 提供 计算 安全 性 。 这 种 技术 使 用 了 健忘 传输 
(Oblivious Transfer,OT) 协 议 。 在 此 基础 上 ,人 们 在 扩展 安全 模型 .减少 密 文 尺寸 以 及 降 
低 计算 代价 等 方面 不 断 改进 。 而 许多 安全 地 计算 算术 电路 的 安全 多 方 计算 协议 是 基于 秘密 
共享 技术 的 。 

4) 函数 加 密 

函数 加 密 是 属性 加 密 的 一 般 化 。 近 年 提出 的 很 多 加 密 概念 ,如 基于 身份 的 加 密 、 属 性 加 
密 、 隐 藏 向 量 加 密 以 及 它们 的 一 些 组 合 , 都 可 归结 为 函数 加 密 , 它 是 这 些 加 密 概念 的 一 般 化 。 
函数 加 密 是 一 类 公 钥 加 密 方案 ,除了 使 用 正规 的 秘密 密 钥 解密 数据 以 外 ,还 有 函数 秘密 密 
钥 , 用 于 访问 对 应 的 函数 在 数据 上 计算 的 结果 。 函 数 加密 的 安全 性 定义 及 其 构造 是 一 个 极 
具 挑 战 性 的 问题 。 

5) 外 包 计 算 

外 包 计算 允许 计算 资源 受 限 的 用 户 端 将 计算 复杂 性 较 高 的 计算 外 包 给 远 端的 半 可 信和 或 
恶意 服务 器 完成 。 相 关 研 究 主要 集中 在 用 户 数 据 的 安全 性 和 隐私 性 、 如 何 验证 服务 器 返回 
结果 的 正确 性 (也 称 完整 性 ) 以 及 实现 高 效 性 方面 ,外 包 计算 包括 基于 同 态 加 密 技术 的 外 包 
计算 、 结 合 安全 多 方 计算 技术 的 外 包 计 算 、 结 合 基 于 属性 加 密 的 外 包 计 算 和 基于 伪装 技术 的 
外 包 计 算 等 。 


1.4.2 大 数据 隐私 保护 技术 


大 数据 隐私 保护 技术 为 大 数据 提供 离线 (如 数据 安全 发 布 ) 与 在 线 (如 数据 安全 查询 ) 等 
应 用 场景 下 的 隐私 保护 ,防止 攻击 者 将 属性 记录、 位置 和 特定 的 用 户 个 体 联系 起 来 。 典 型 
的 隐私 保护 需求 包括 用 户 身份 隐私 保护 、 属 性 隐私 保护 、 社 交 关 系 隐私 保护 与 轨迹 隐私 保护 
等 。 其 中 ,用 户 身份 隐私 保护 的 目标 是 降低 攻击 者 从 数据 集中 识别 出 某 特定 用 户 的 可 能 性 。 
属性 隐私 保护 要 求 对 用 户 的 属性 数据 进行 匿名 ,杜绝 攻 击 者 对 用 户 的 属性 隐私 进行 帘 探 。 
社交 关系 隐私 保护 要 求 节点 对 应 的 社交 关系 保持 匿名 ,攻击 者 无 法 确认 特定 用 户 拥 有 哪些 
社交 关系 。 轨 迹 隐私 保护 要 求 对 用 户 的 真实 位 置 进 行 隐 藏 ,不 将 用 户 的 敏感 位 置 和 活动 规 
律 泄露 给 恶意 攻击 者 ,从 而 保护 用 户 安全 。 

当前 的 大 数据 隐私 保护 技术 可 大 致 分 为 两 类 : 基于 上 匿名 的 隐私 保护 技术 和 基于 差分 
隐私 的 隐私 保护 技术 。 前 者 根据 隐私 数据 类 型 与 应 用 场景 的 差别 ,又 可 以 进一步 划分 为 关 
系 型 数据 隐私 保护 ,社交 图 谱 数据 隐私 保护 、 位 置 与 轨迹 数据 隐私 保护 。 


l. 关系 型 数据 隐私 保护 
在 结构 化 数据 表 中 ,标识 符 信息 具有 唯一 性 。 常 见 的 保护 方案 就 是 通过 数据 扰动 、 泛 
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化 、 分 割 发 布 等 来 模糊 用 户 的 其 他 特征 ,使 得 具有 相同 的 敏感 属性 .记录 和 位 置 的 相似 用 户 
至 少 有 & 个 。 通 过 这 种 方式 ,攻击 者 无 法 确定 个 体 用 户 的 真实 属性 和 位 置 ,从 某 种 程度 上 可 
以 保护 用 户 隐私 安全 。 

D 身份 匿名 

简单 地 去 标识 符 匿名 化 仅仅 去 除了 表 中 的 身份 ID 等 标志 性 信息 ,攻击 者 仍 可 和 凭借 背景 
知识 ,如 地 域 . 性 别 等 准 标识 符 信息 , 迅 速 确定 攻击 目标 对 应 的 记录 。k- 匿 名 模型 可 防止 攻 
击 者 唯一 地 识别 出 数据 集中 的 某 个 特定 用 户 ,使 其 无 法 进一步 获得 该 用 户 的 准确 信息 ,能 够 
提供 一 定 程度 的 用 户 身 份 隐私 保护 。 

2) 属性 匿名 

在 经 过 人 -匿名 处 理 后 的 数据 集中 ,攻击 目标 至 少 对 应 于 & 个 可 能 的 记录 。 但 如 果 记 录 
的 敏感 数据 接近 一 致 或 集中 于 某 个 属性 ,攻击 者 也 可 以 唯一 地 或 以 极 大 概率 确定 数据 持 有 
者 的 属性 。 为 避免 这 种 不 完全 保护 ,人 们 提出 了 -多样 化 .#- 贴 近 模 型 等 ,根据 敏感 属性 的 
分 布 情况 进行 有 针对 性 的 扰动 与 泛 化 处 理 。 

3) 多 次 发 布 模型 与 个 性 化 匿名 

在 数据 连续 、 多 次 发 布 的 场景 中 ,还 需要 考虑 到 多 次 发 布 的 统一 性 问题 。 有 很 多 方案 可 
能 在 单独 的 发 布 场景 中 都 能 够 满足 上 匿名 上 多 样 化 或 者 志 贴 近 性 的 要 求 , 但 是 对 多 次 发 布 
的 数据 联合 进行 分 析 ,就 会 暴露 数据 匿名 的 漏洞 。 此 外 ,用 户 具 有 高 度 个 性 化 的 隐私 保护 需 
求 , 需 要 根据 用 户 个 人 需求 制定 不 同 级 别 的 隐私 保护 策略 ,避免 数据 的 过 分 匿名 或 者 保护 策 
略 不 足 的 情况 。 

2. 社交 图 谱 数 据 隐私 保护 

在 社交 网 络 场景 中 ,用 户 信 息 不 仅 包含 单纯 的 属性 数据 ,还 包含 社交 关系 数据 。 在 图 连 
接 信息 丰富 的 社交 网 络 中 ,攻击 者 可 以 通过 对 目标 用 户 的 邻居 社交 关系 所 形成 的 独特 结构 
(如 节点 度数 .节点 子 图 形状 .邻近 的 节点 连通 程度 等 ) 重 识别 出 用 户 。 因 此 在 图 数据 匿名 方 
案 中 ,采用 属性 -社交 网 络 模 型 描述 用 户 属性 数据 和 社交 关系 数据 ,通过 在 匿名 过 程 中 添加 
一 定 程度 的 抑制 ,置换 或 扰动 ,使 得 匿名 前 后 的 社交 结构 发 生变 化 ,降低 攻击 者 精确 识别 目 
标的 成 功率 。 这 类 方案 中 普遍 采用 图 的 大 匿名 作为 可 量化 的 匿名 标准 , 即 如 果 一 个 图 满足 
匿名 , 则 表明 图 中 任 一 个 节点 至 少 与 其 他 一 1 个 节点 具有 相同 的 度 , 利 用 节点 度 作为 背 
景 知识 的 攻击 者 能 够 识别 目标 个 体 的 概率 不 超过 1/k。 更 一 般 地 ,通过 匿名 化 算法 处 理 , 使 
得 匿名 化 的 图 具备 自 同 构 性 。 

D 节点 匿名 

攻击 者 可 通过 对 目标 用 户 的 邻居 社交 关系 所 形成 的 独特 结构 重 识 别 出 用 户 。 节 点 匿名 
的 目标 是 通过 添加 一 定 程度 的 抑制 .置换 或 扰动 ,降低 精确 匹配 的 成 功率 。 

2) WEH 

数据 发 布 者 需要 有 能 力 保证 这 些 私密 社交 关系 的 匿名 性 ,但 直接 将 对 应 的 边 删 除 并 不 
能 降低 通过 推测 得 出 此 边 的 连接 的 概率 。 为 了 实现 边 匿名 ,可 以 通过 节点 匿名 达到 保护 用 
户 间 社交 关系 的 目的 ;在 节点 身份 已 知 时 ,可 以 通过 对 图 中 其 他 边 数据 的 扰动 ,降低 该 边 被 
推测 出 来 的 可 能 性 。 

3) 属性 匿名 

在 社交 图 谱 中 ,用 户 的 部 分 属性 与 其 社交 结构 具有 较 高 的 相关 性 。 具 有 相同 属性 的 用 
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户 更 容易 成 为 朋友 ,形成 关系 紧密 的 社区 。 攻 击 者 可 通过 用 户 可 见 的 属性 、 社 交 关 系 、 所 属 
群 组 等 信息 来 推测 用 户 的 隐私 信息 。 为 实现 属性 匿名 ,需要 从 节点 、 边 、 属 性 3 方面 联合 
EA. 


3. 位 置 轨迹 数据 隐私 保护 

用 户 的 地 理 位 置 空间 属性 在 抽象 后 也 可 以 成 为 用 户 的 准 标 识 符 信息 。 攻 击 者 可 通过 其 
掌握 的 用 户 某 时 刻 位 置 这 类 背景 知识 和 用 户 历史 位 置 精确 匹配 ,从 而 唯一 地 识别 出 目标 用 
户 。 因 此 ,人 们 将 -匿名 的 概念 引入 到 位 置 轨迹 数据 匿名 场景 中 ,确保 查询 区 域 中 至 少 有 久 
个 用 户 同时 具有 相同 的 位 置 数据 或 相同 的 轨迹 。 基 本 的 保护 方法 包括 位 置 轨迹 泛 化 、 随 机 
化 加 噪 处 理 等 。 

1) 面向 LBS 应 用 的 隐私 保护 

为 了 得 到 良好 的 基于 位 置 的 服务 (LBS) ,用 户 往往 会 把 精确 位 置信 息 发 送 到 服务 器 端 ， 
由 此 会 给 用 户 带 来 位 置 隐私 威胁 。 需 要 对 用 户 所 提交 的 实时 位 置信 息 进行 匿名 化 处 理 。 典 
型 的 LBS 隐私 保护 方案 包括 Mix-zone 在 路 网 中 的 应 用 和 PIR 在 近邻 查询 中 的 应 用 。 

2) 面向 数据 发 布 的 隐私 保护 

位 置 与 隐私 保护 的 男 一 个 典型 应 用 场景 是 位 置 与 轨迹 数据 发 布 。 由 于 包含 用 户 大 量 的 
历史 轨迹 信息 , 且 位 置 与 轨迹 数据 同时 具有 准 标识 符 和 隐私 数据 双重 性 质 ,实现 上 匿名 保 
护 难 度 更 大 。 目 前 的 保护 方法 主要 包括 针对 敏感 位 置 .用户 轨 迹 、 轨 迹 属性 等 几 类 数据 的 隐 
私 保护 。 

3) 基于 用 户 活动 规律 的 攻击 分 析 

由 于 用 户 的 地 理 位 置 空间 属性 在 抽象 后 也 可 成 为 用 户 的 准 标识 符 信 息 ,攻击 者 可 将 目 
标 用 户 的 活动 规律 以 具体 模型 量化 描述 ,进而 重新 识别 出 匿名 用 户 ,并 推测 用 户 隐藏 的 敏感 
位 置 ,预测 用 户 轨迹 。 典 型 方法 有 基于 马尔 可 夫 模 型 、 隐 马尔 可 夫 模型 .混合 高 斯 模型 等 攻 
击 方法 。 


4. 差分 隐私 

匿名 化 技术 是 与 攻击 方法 紧密 相连 的 一 种 启发 式 保护 方法 ,无 法 论证 其 对 未 知 攻 击 的 
安全 性 。 实 际 上 , 正 是 由 于 不 断 提 出 新 的 攻击 方法 ,所 以 由 最 初 的 信 匿 名 逐渐 发 展 到 二 贴 
近 \- 多 样 化 等 一 系列 匿名 方案 。 形 成 “攻击 一 防护 一 新 攻击 一 新 防护 ”的 链条 ,防护 方法 缺 
乏 普 适 性 以 及 严格 证 明 其 安全 性 的 隐私 保护 框架 。 而 差分 隐私 技术 弥补 了 这 个 空白 。 
Dwork 提出 了 一 种 替代 的 安全 目标 , 即 确保 在 数据 集中 插入 或 删除 一 条 记录 不 会 对 输出 结 
果 造 成 显著 影响 。 差 分 隐私 将 攻击 者 的 知识 能 力 提 高 到 最 强 的 水 平 ,攻击 者 拥有 何 种 背景 
知识 对 攻击 结果 无 法 造成 影响 。 即 使 攻击 者 已 经 掌握 除了 攻击 目标 之 外 的 其 他 所 有 记录 信 
息 ,仍旧 无 法 获得 该 攻击 目标 的 确切 信息 。 根 据 差 分 隐私 的 形式 化 定义 ,由 用 户 指定 的 隐私 
BB e 控制 添加 噪声 大 小 ,从 而 决定 隐私 保护 程度 与 数据 失真 损失 程度 。 由 于 加 入 了 噪声 ， 
在 相 邻 数据 集 上 分 别 进行 相同 的 查询 ,也 可 能 得 到 相同 的 结果 。 

1) 基本 差分 隐私 

目前 差分 隐私 技术 应 用 在 数据 发 布 (直方 图 发 布 . 流 数据 发 布 . 社 交 网 络 图 数据 发 布 
等 ) ,数据 挖掘 与 学 习 ( 频 繁 模式 挖掘 \ 分 类 )、 查 询 处 理 ( 范 围 查询 ) 等 方面 。 其 中 ,为 了 避免 
隐私 保护 技术 对 数据 可 用 性 造成 的 损失 ,影响 数据 挖掘 结果 ,人 们 提出 了 差分 隐私 的 数据 挖 
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掘 技术 ,通过 差分 隐私 技术 约束 用 户 隐私 泄露 程度 ,同时 尽量 保证 数据 挖掘 结果 的 可 用 性 。 

2) 本 地 差分 隐私 

本 地 差分 隐私 (Local Differential Privacy,LDP) 是 指 用 户 在 本 地 将 要 上 传 的 数据 提前 
进行 随机 化 处 理 , 使 其 满足 本 地 差分 隐私 条 件 后 ,再 上 传 给 数据 采集 者 。LDP 的 典型 代表 
有 Rappor 协议 .SH 协议 等 。 已 有 学 者 指出 ,实现 本 地 差分 隐私 的 本 地 算法 和 已 有 的 统计 
查询 算法 等 价 , 数 据 采 集 者 能 够 通过 统计 得 到 一 些 有 用 的 信息 。 本 地 差分 隐私 可 很 好 地 解 
决 数据 采集 中 的 隐私 保护 。 

3) 基于 差分 隐私 的 轨迹 保护 

经 过 差分 隐私 保护 技术 处 理 后 的 用 户 轨迹 数据 可 在 有 效 保护 用 户 隐私 的 前 提 下 安全 发 
布 。 目前 ,已 有 集中 式 差 分 隐私 轨迹 保护 方法 ,在 保持 轨迹 数据 集 总 体 统计 特征 稳定 的 基础 
上 ,产生 新 的 轨迹 来 蔡 代 原始 轨迹 , 且 新 数据 集 满足 差分 隐私 安全 要 求 。 也 可 采用 本 地 差分 
隐私 技术 对 个 人 轨迹 数据 进行 处 理 , 用 户 自 己 掌握 自己 真实 的 轨迹 ,将 加 噪 变换 后 的 轨迹 发 
送 给 服务 器 ,但 仍 可 让 服务 器 对 其 进行 有 意义 的 轨迹 分 析 。 


1.5 大 数据 服务 于 信息 安全 


大 数据 分 析 技术 在 为 信息 安全 带 来 全 新 挑战 的 同时 ,也 为 信息 安全 技术 带 来 了 发 展 的 
契机 。 大 数据 分 析 技 术 可 应 用 于 安全 威胁 发 现 ,认证 ,也 可 应 用 于 大 数据 的 数据 真实 性 分 
析 等 。 


1.5.1 基于 大 数据 的 威胁 发 现 技术 


由 于 大 数据 分 析 技 术 的 出 现 ,企业 可 以 超越 以 往 的 “保护 一 检测 一 响应 一 恢复 ” 
(PDRR) 模 式 , 更 主动 地 发 现 潜在 的 安全 威胁 。 相 比 于 传统 技术 方案 ,基于 大 数据 的 威胁 发 
现 技 术 具 有 如 下 优点 。 

(1) 分 析 内 容 的 范围 更 大 。 传 统 的 威胁 分 析 主 要 针对 的 内 容 为 各 类 安全 事件 。 而 一 个 
企业 的 信息 资产 则 包括 数据 资产 、 软 件 资产 ,实物 资产 、 人 员 资 产 、 服 务 资 产 和 其 他 为 业务 提 
供 支持 的 无 形 资产 。 由 于 传统 威胁 检测 技术 的 局 限 性 ,其 并 不 能 覆盖 这 6 类 信息 资产 , 因 
此 ,能 发 现 的 威胁 也 是 有 限 的 。 而 通过 在 威胁 检测 方面 引入 大 数据 分 析 技 术 ,可 更 全 面 地 发 
现 针对 这 些 信息 资产 的 攻击 。 例 如 ,IBM 推出 了 名 为 IBM 大 数据 安全 智能 的 新 型 安全 工 
具 , 可 利用 大 数据 来 检测 企业 内 外 部 的 安全 威胁 ,包括 扫描 电子 邮件 和 社交 网 络 , 标 示 出 明 
显 心 存 不 满 的 员工 ,提醒 企业 注意 预防 其 泄露 企业 秘密 。 

(2) 分 析 内 容 的 时 间 跨 度 更 长 。 现 有 的 许多 威胁 分 析 技 术 都 是 内 存 关联 性 的 ,也 就 是 
说 实时 收集 数据 ,采用 分 析 技 术 发 现 攻击 。 分 析 窗 口 通常 受 限 于 内 存 大 小 ,无 法 应 对 持续 性 
和 潜伏 性 攻击 。 而 引入 大 数据 分 析 技 术 后 ,威胁 分 析 窗 口 可 以 横 跨 若干 年 的 数据 ,因此 , 威 
胁 发 现 能 力 更 强 , 可 有 效应 对 APT 类 攻击 。 

(3) 能 够 预测 攻击 威胁 。 传 统 的 安全 防护 技术 或 工具 大 多 是 在 攻击 发 生 后 对 攻击 行为 
进行 分 析 和 归 类 ,并 做 出 响应 。 而 基于 大 数据 的 威胁 分 析 可 进行 超前 的 预 判 。 它 能 够 寻找 
潜在 的 安全 威胁 ,对 未 发 生 的 攻击 行为 进行 预防 。 

(4) 能 够 检测 未 知 威胁 。 传 统 的 威胁 分 析 通 常 是 由 经 验 丰 富 的 专业 人 员 根 据 企业 需求 
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和 实际 情况 展开 ,然而 这 种 威胁 分 析 的 结果 很 大 程度 上 依赖 于 个 人 经 验 。 同 时 ,分 析 所 发 现 
的 威胁 也 是 已 知 的 。 而 大 数据 分 析 的 特点 是 侧重 于 普通 的 关联 分 析 , 而 不 侧重 于 因果 分 析 ， 
因此 ,通过 采用 恰当 的 分 析 模 型 ,可 发 现 未 知 威胁 。 

虽然 基于 大 数据 的 威胁 发 现 技 术 具 有 上 述 优 点 ,但 是 该 技术 目前 也 存在 一 些 问题 和 挑 
战 , 主 要 集中 在 分 析 结果 的 准确 程度 上 。 一 方面 ,大 数据 的 收集 很 难 做 到 全 面 ,而 数据 又 是 
分 析 的 基础 , 它 的 片面 性 往往 会 导致 分 析 结 果 的 偏差 。 另 一 方面 ,大 数据 分 析 能 力 的 不 足 也 
会 影响 威胁 分 析 的 准确 性 。 例 如 ,纽约 投资 银行 每 秒 有 5000 次 网 络 事件 ,每 天 会 从 中 捕捉 
25TB 数据 。 如 果 没 有 足够 的 分 析 能 力 , 要 从 如 此 庞大 的 数据 中 准确 地 发 现 极 少数 预示 潜 
在 攻击 的 事件 ,进而 分 析出 威胁 ,几乎 是 不 可 能 完成 的 任务 。 


1.5.2 基于 大 数据 的 认证 技术 


身份 认证 是 信息 系统 或 网 络 中 确认 操作 者 身份 的 过 程 。 传 统 的 认证 技术 主要 通过 用 户 
所 知 的 秘密 (例如 口令 ) 或 者 持 有 的 凭证 (例如 数字 证 书 ) 来 鉴别 用 户 。 这 些 技术 面临 着 如 下 
两 个 问题 : 

CD 攻击 者 总 是 能 够 找到 方法 来 骗取 用 户 所 知 的 秘密 ,或 窃取 用 户 持 有 的 凭证 ,从 而 通 
过 认证 机 制 的 认证 。 例 如 攻击 者 利用 钓鱼 网 站 窃取 用 户口 令 ,或 者 通过 社会 工程 学 方式 接 
近 用 户 ,直接 骗取 用 户 所 知 的 秘密 或 持 有 的 凭证 。 

(2) 传统 认证 技术 中 ,认证 方式 越 安全 ,往往 意味 着 用 户 负担 越 重 。 例 如 ,为 了 加 强 认 
证 安全 采用 多 因素 认证 ,用 户 往 往 需 要 记忆 复杂 的 口令 ,还 要 随身 携带 硬件 一 一 USB Key. 
一 旦 忘记 口令 或 者 忘记 携带 USB Key, 就 无 法 完成 身份 认证 。 为 了 减轻 用 户 负担 ,出 现 了 
一 些 生物 认证 方式 ,利用 用 户 具 有 的 生物 特征 (例如 指纹 等 ) 来 确认 其 身份 。 然 而 ,这 些 认 证 
技术 要 求 设备 必须 具有 生物 特征 识别 功能 ,例如 指纹 识别 ,因此 ,在 很 大 程度 上 限制 了 这 些 
认证 技术 的 广泛 应 用 。 

在 认证 技术 中 引入 大 数据 分 析 能 够 有 效 地 解决 这 两 个 问题 。 基 于 大 数据 的 认证 技术 指 
的 是 收集 用 户 行为 和 设备 行为 数据 ,并 对 这 些 数据 进行 分 析 , 获 得 用 户 行为 和 设备 行为 的 特 
征 , 进 而 通过 鉴别 操作 者 行为 及 其 设备 行为 来 确定 其 身份 。 这 与 传统 认证 技术 利用 用 户 所 
知 的 秘密 、 所 持 有 的 凭证 或 具有 的 生物 特征 来 确认 其 身份 有 很 大 不 同 。 具 体 地 ,这 种 新 的 认 
证 技术 具有 如 下 优点 。 

CD 攻击 者 很 难 模拟 用 户 行为 特征 来 通过 认证 ,因此 ,这 种 技术 更 加 安全 。 利 用 大 数据 
技术 能 收集 的 用 户 行为 和 设备 行为 数据 是 多 样 的 ,可 包括 用 户 使 用 系统 的 时 间 、 经 常 采 用 的 
设备 .设备 所 处 的 物理 位 置 ,甚至 是 用 户 的 操作 习惯 数据 。 通 过 这 些 数据 的 分 析 能 够 为 用 户 
勾画 一 个 行为 特征 的 轮廓 。 而 攻击 者 很 难 在 方方面面 都 模仿 用 户 行为 ,因此 ,其 与 真正 用 户 
的 行为 特征 轮廓 必然 存在 较 大 偏差 ,无 法 通过 认证 。 

(2) 减轻 了 用 户 负担 。 用 户 行为 和 设备 行为 特征 数据 的 采集 ,存储 和 分 析 都 由 认证 系 
统 完成 , 相 比 于 传统 认证 技术 , 极 大 地 减轻 了 用 户 负担 。 

(3) 可 更 好 地 支持 各 系统 认证 机 制 的 统一 。 基 于 大 数据 的 认证 技术 可 以 让 用 户 在 整个 
网 络 空间 采用 相同 的 行为 特征 进行 身份 认证 ,而 避免 由 于 不 同系 统 采用 不 同 认证 方式 且 用 
户 所 知 的 秘密 或 所 持 有 的 凭证 也 各 不 相同 而 带 来 的 种 种 不 便 。 

虽然 基于 大 数据 的 认证 技术 具有 上 述 优 点 ,但 同时 也 存在 一 些 问 题 和 挑战 亟待 解决 ， 











大 数据 安全 与 隐私 保护 


例如 : 

(1) 初始 阶段 的 认证 问题 。 基 于 大 数据 的 认证 技术 建立 在 大 量 用 户 行为 和 设备 行为 数 
据 分 析 的 基础 上 ,而 初始 阶段 不 具备 大 量 数据 ,因此 ,无 法 分 析出 用 户 行为 特征 ,或 者 分 析 的 
结果 不 够 准确 。 

(2) 用 户 隐私 问题 。 基 于 大 数据 的 认证 技术 为 了 能 够 获得 用 户 的 行为 习惯 ,必然 要 长 
期 持续 地 收集 大 量 的 用 户 数据 。 那 么 如 何在 收集 和 分 析 这 些 数据 的 同时 确保 用 户 隐私 也 是 
吸 待 解决 的 问题 。 它 是 影响 这 种 新 的 认证 技术 是 否 能 够 推广 的 主要 因素 。 


1.5.3 基于 大 数据 的 数据 真实 性 分 析 


目前 ,基于 大 数据 的 数据 真实 性 分 析 被 广泛 认为 是 最 为 有 效 的 方法 。 许 多 企业 已 经 开 
始 了 这 方面 的 研究 工作 ,例如 Yahoo 和 Thinkmail 等 利用 大 数据 分 析 技 术 来 过 滤 垃圾 邮 
件 ,Yelp 等 社交 点 评 网 站 用 大 数据 分 析 来 识别 虚假 评论 ,新 浪 微 博 等 社交 媒体 利用 大 数据 
分 析 来 鉴别 各 类 垃圾 信息 等 。 

基于 大 数据 的 数据 真实 性 分 析 技 术 能 够 提高 垃圾 信息 的 鉴别 能 力 。 一 方面 ,引入 大 数 
据 分 析 可 获得 更 高 的 识别 准确 率 。 例 如 ,对 于 点 评 网 站 的 虚假 评论 ,可 通过 收集 评论 者 的 位 
置信 息 .评论 内 容 、` 评 论 时 间 等 进行 分 析 , 鉴 别 其 评论 的 可 靠 性 。 如 果 某 评论 者 对 某 品 牌 多 
个 同类 产品 都 发 表 了 恶意 评论 , 则 其 评论 的 真实 性 就 值得 怀疑 。 另 一 方面 ,在 进行 大 数据 分 
析 时 ,通过 机 器 学 习 技术 ,可 发 现 更 多 具有 新 特征 的 垃圾 信息 。 然 而 该 技术 仍然 面临 一 些 困 
难 , 主 要 是 虚假 信息 的 定义 、 分 析 模 型 的 构建 等 。 


1.5.4 大 数据 与 “安全 即 服 务 ” 


前 面 列 举 了 一 些 当 前 基于 大 数据 的 信息 安全 技术 ,未 来 必 将 涌现 出 更 多 、 更 丰富 的 安全 
应 用 和 安全 服务 ,大 数据 也 必 将 充分 展现 “安全 即 服务 ”(Security as a Service) 的 理念 。 由 
于 此 类 技术 以 大 数据 分 析 为 基础 ,因此 ,如 何 收集 、 存 储 和 管理 大 数据 就 是 相关 企业 或 组 织 
所 面临 的 核心 问题 。 除 了 极 少 数 企 业 有 能 力 做 到 之 外 ,对 于 绝 大 多 数 信息 安全 企业 来 说 ,更 
为 现实 的 方式 是 通过 某 种 方式 获得 大 数据 服务 ,结合 自己 的 技术 特色 领域 ,对 外 提供 安全 服 
务 。 一 种 未 来 的 发 展 前 景 是 ,以 底层 大 数据 服务 为 基础 ,各 个 企业 之 间 组 成 相互 依赖 .互相 
支撑 的 信息 安全 服务 体系 ,总 体 上 形成 信息 安全 产业 界 的 良好 生态 环境 。 


1.0 基本 密码 学 工具 

密码 学 可 有 效 地 保障 信息 的 机 密 性 ,完整 性 、 认 证 性 和 不 可 否认 性 ,是 大 数据 安全 和 隐 
私 保护 的 基础 工具 。 本 节 重 点 介绍 密码 学 的 一 些 基本 概念 。 
1.6.1 加 密 技术 


传统 加 密 技 术 的 主要 目标 是 保护 数据 的 机 密 性 。 一 个 加 密 算法 被 定义 为 一 对 数据 变 
换 。 其 中 一 个 变换 应 用 于 数据 起 源 项 , 称 为 明文 ,所 产生 的 相应 数据 项 称 为 密 文 。 而 另 一 个 
变换 应 用 于 密 文 ,恢复 出 明文 。 这 两 个 变换 分 别称 为 加 密 变 换 和 解密 变换 。 习 惯 上 ,也 使 用 
加 密 和 解密 这 两 个 术语 。 加 密 和 解密 的 操作 通常 都 是 在 一 组 密 钥 控 制 下 进行 的 ,分 别称 为 
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加 密 密 钥 和 人 解密 密 钥 。 主 要 有 两 大 类 加 密 技术 : 一 类 是 对 称 加 密 , 另 一 类 是 公 钥 加 密 。 对 
称 加 密 的 特征 是 加 密 密 钥 和 解密 密 钥 一 样 或 相互 容易 推出 ; 公 钥 加 密 (也 称 非 对 称 加 密 ) 的 
特征 是 加 密 密 钥 和 解密 密 钥 不 同 ,从 一 个 难以 推出 男 一 个 。 

1. 对 称 加 密 技术 

对 称 加 密 分 为 两 种 : 一 种 是 将 明文 消息 按 字符 逐 位 地 加 密 , 称 为 序列 密码 (也 称 流 密 
码 ); 另 一 种 是 将 明文 消息 分 组 (每 组 含有 多 个 字符 ) , 逐 组 地 进行 加 密 , 称 为 分 组 密码 ,例如 
分 组 密码 AES 和 SM4 以 及 序列 密码 ZUC, AES 是 美国 国家 标准 技术 研究 所 (NIST) 公 布 
的 一 个 分 组 密码 中 ,其 分 组 长 度 为 128b, 密 钥 可 为 128b、192b 或 256b。SM4 是 中 国 公布 的 
一 个 商用 分 组 密码 标准 G73 ,其 分 组 长 度 和 密 钥 长 度 均 为 128b。ZUC( 祖 冲 之 序列 密码 算 
法 ) 是 一 个 序列 密码 ,已 成 为 国际 3GPP 标准 ,也 是 中 国 的 国家 标准 S93。ZUC 算法 逻辑 上 分 
为 上 中 下 3 层 , 上 层 是 16 级 线性 反馈 移 位 寄存 器 (LFSR) ,中 层 是 比特 重组 (BR) ,下层 是 非 
线性 函数 F。 


2. DA Ae BRR 

公 钥 密码 是 由 Diffie 和 Hellman 于 1976 年 首次 提出 的 。 与 对 称 密 码 不 同 , 公 钥 密码 采 
用 两 个 不 同 的 密 钥 将 加 密 功 能 和 解密 功能 分 开 。 一 个 密 钥 称 作 私 钥 , 像 在 对 称 密码 中 一 样 ， 
该 密 钥 被 秘密 保存 。 另 一 个 密 钥 称 作 公 钥 ,不 需要 保密 。 公 钥 密码 必须 具有 如 下 重要 特性 
给 定 公 钥 ,要 确定 出 私 钥 是 计算 上 不 可 行 的 。 

公 钥 密码 的 设计 比 对 称 密码 的 设计 具有 更 大 的 挑战 性 ,因为 公 钥 为 攻击 算法 提供 了 一 
定 的 信息 。 目 前 使 用 的 公 钥 密码 的 安全 性 基础 主要 是 数学 中 的 困难 问题 。 最 流行 的 有 两 大 
类 : 一 类 是 基于 大 整数 因子 分 解 问题 的 ,如 RSA 公 钥 加 密 ; 另 一 类 是 基于 离散 对 数 问题 的 ， 
如 椭圆 曲线 公 钥 加 密 、SM2 公 钥 加 密 等 。1977 年 由 Rivest、Shamir 和 Adleman 提出 了 第 一 
个 比较 完善 的 公 钥 密码 ,这 就 是 著名 的 RSA FEO, RSA 也 是 迄今 应 用 最 广泛 的 公 钥 密 
码 , 其 安全 性 基于 大 整数 因子 分 解困 难 问 题 : 已 知 大 整数 N, 求 素 因 子 p A aN = pq) Hit 
算 困 难 的 。1985 年 ,Koblitz 和 Miller 分 别 独立 地 提出 了 椭圆 曲线 密码 5 (Elliptic Curve 
Cryptography,ECC) 。 椭 圆 曲线 密码 的 安全 性 基于 椭圆 曲线 群 上 计算 离散 对 数 困难 问题 。 
椭圆 曲线 密码 能 用 更 短 的 密 钥 来 获得 更 高 的 安全 性 ,而 且 加 密 速 度 比 RSA 快 ,因此 ,在 许多 
资源 受 限 的 环境 中 得 到 了 广泛 的 应 用 。SM2 椭圆 曲线 公 钥 密码 算法 是 中 国 的 一 个 公 钥 密 
码 标准 "外 ,包括 公 钥 加 密 算 法 、 数 字 签名 算法 、 密 钥 交 换 协 议 。 


1.6.2 数字 签名 技术 


数字 签名 是 一 种 以 电子 形式 存储 的 消息 签名 。 数 字 签 名 算法 由 一 个 签名 者 对 数据 产生 
数字 签名 ,并 由 一 个 验证 者 验证 签名 的 可 靠 性 。 每 个 签名 者 有 一 个 公 钥 和 一 个 私 钥 ,其 中 私 
钥 用 于 产生 数字 签名 ,验证 者 用 签名 者 的 公 钥 验证 签名 。 一 个 数字 签名 方案 应 具备 如 下 基 
本 特点 : 

CD 不 可 伪造 性 。 在 不 知道 签名 者 私 钥 的 情况 下 ,任何 其 他 人 都 不 能 伪造 签名 。 

(2) 不 可 否认 性 。 签 名 者 无 法 否认 自己 对 消息 的 签名 。 

(3) 保证 消息 的 完整 性 。 任 何 对 消息 的 更 改 都 将 导致 签名 无 法 通过 验证 。 

公 钥 密码 可 提供 功能 强大 的 数字 签名 方案 ,而 无 须 接收 者 秘密 保存 验证 密 钥 。 目 前 诸 
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多 数字 签名 方案 主要 基于 公 钥 密码 。 除 了 RSA 数字 签名 方案 外 ,目前 还 有 很 多 不 同 功 能 、 
不 同类 型 的 数字 签名 方案 。ISO 数字 签名 标准 ECDSA 和 中 国 的 商用 密码 标准 SM2 椭圆 
曲线 数字 签名 就 是 两 个 重要 的 数字 签名 标准 。ECDSA 数字 签名 [是 使 用 椭圆 曲线 对 数字 
签名 算法 DSA 的 模拟 。ECDSA 于 1998 年 成 为 ISO 标准 ,于 1999 年 成 为 ANSI 标准 ,于 
2000 年 成 为 IEEE 和 FIPS 标准 。ECDSA 是 EIGamal 公 钥 密码 的 一 种 变形 ,其 安全 性 依赖 
于 椭圆 曲线 群 上 计算 离散 对 数 困难 问题 。SM2 数字 签名 [5 与 ECDSA 数字 签名 一 样 , 其 安 
全 性 也 依赖 于 椭圆 曲线 群 上 计算 离散 对 数 困难 问题 。 


1.6.3 Hash 和 MAC 技术 


Hash 函数 (也 称 杂 次 函数 或 哈 希 函数 ) 可 将 任意 长 的 消息 压缩 为 固定 长 度 的 Hash 值 。 
Hash 函数 需 具 有 如 下 性 质 : 

CD 单 向 性 。 对 一 个 给 定 的 Hash 函数 值 ,构造 一 个 输入 消息 将 其 映射 为 该 函数 值 是 
计算 上 不 可 行 的 。 

(2) 抗 碰撞 性 。 构 造 两 个 不 同 的 消息 将 它们 映射 为 同一 个 Hash 函数 值 是 计算 上 不 可 
行 的 。 

Hash 函数 可 用 于 构造 分 组 密码 序列 密码 和 消息 认证 码 ,也 是 数字 签名 的 重要 组 件 ， 
可 破坏 输入 的 代数 结构 ,进行 消息 源 认证 ;也 可 用 于 构造 伪 随 机 数 生成 器 ,进行 密 钥 派生 等 。 
典型 的 Hash 函数 有 SHA-256 FEU ,SM3 算法 C9 和 SHA-3 HEC, 

与 Hash 函数 技术 相关 的 是 消息 认证 码 (Message Authentication Code. MAC) 技术。 
MAC 算法 也 是 基于 一 个 大 尺寸 数据 生成 一 个 小 尺寸 数据 ,在 性 能 上 也 需要 避免 碰撞 ,但 
MAC 算法 有 密 钥 参 与 ,计算 结果 类 似 于 一 个 加 密 的 Hash. 函数 值 ,攻击 者 难以 在 算 改 内 容 
后 伪造 它 。 因 此 ,MAC 值 可 单独 使 用 ,而 Hash 函数 值 一 般配 合 数字 签名 使 用 。MAC 算法 
主要 基于 分 组 密码 或 普通 Hash 算法 改造 ,HMAC 是 最 常用 的 MAC 算法 , 它 通过 Hash PR 
数 来 实现 消息 认证 。HMAC 可 以 和 任何 迭代 Hash 函数 (如 MD5、SHA-1) 结 合 使 用 而 无 须 
更 改 这 些 Hash PAR. 


1.6.4 密 钥 交换 技术 


通信 双方 在 公开 的 网 络 环境 中 传送 数据 ,一 般 要 确保 数据 的 机 密 性 和 可 认证 性 。 要 
达到 此 目的 ,必须 对 传送 的 数据 进行 加 密 和 认证 ,这 就 需要 使 用 会 话 密 钥 。 密 钥 交 换 协 
议 就 是 两 个 或 多 个 参与 方 在 公开 的 网 络 环境 中 建立 秘密 的 会 话 密 钥 的 过 程 , 会 话 密 钥 是 
协议 参与 方 产生 的 输入 的 函数 。 例 如 MQV 密 钥 交换 协议 和 SM2 密 钥 交换 协议 就 是 两 
个 典型 的 两 方 密 钥 交换 协议 。MQYV 协议 由 Menezes 等 人 于 1995 年 最 先 提 出 C] 。 这 一 
协议 被 世界 上 许多 权威 标准 机 构 ( 例 如 ANSI, IEEE. NIST 等 ) 采 纳 为 密码 标准 。 美 国 国 
家 安全 局 (NSA) 也 将 MQV 协议 纳入 * 下 一 代 密 码 技术 ”标准 体系 中 ,用 以 保护 密级 达到 
国家 级 机 密 的 重要 、 敏 感 数据 。SM2 密 钥 交换 协议 "外 是 中 国 公布 的 一 个 商用 密码 标准 ， 
可 满足 通信 双方 经 过 两 次 或 可 选 三 次 信息 传递 过 程 , 通 过 计算 获取 一 个 由 双方 共同 决定 
的 会 话 密 钥 。 
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1.7 本 书 的 架构 


本 书 共 分 为 5 章 。 第 1 章 是 绪论 ,全 面 地 介绍 大 数据 安全 与 隐私 保护 的 内 涵 和 技术 框 
架 。 第 2 一 5 童 是 专题 部 分 ,分 别 介绍 大 数据 安全 与 隐私 保护 中 的 若干 关键 技术 内 容 。 粗 略 
地 讲 , 第 2 一 4 章 属 于 安全 技术 范畴 ,包括 安全 存储 与 访问 控制 技术 (第 2 章 ) 安全 检索 技术 
(第 3 章 ) 以 及 安全 处 理 技术 (第 4 章 )。 第 5 章 重 点 介绍 隐私 保护 技术 。 本 书 力求 反映 国内 
外 在 这 些 领 域 的 重要 研究 成 果 、 前 沿 工作 以 及 有 待 进一步 研究 的 问题 。 在 此 基础 上 ,读者 可 
以 根据 各 章 “ 注 记 与 文献 ”中 的 内 容 进 行 深入 研读 。 


1.8 注 记 与 文献 


本 章 重 点 介绍 了 大 数据 的 基本 概念 与 大 数据 时 代 面 临 的 安全 挑战 ,阐述 了 大 数据 生命 
周期 各 主要 阶段 所 面临 的 安全 风险 ,有 针对 性 地 提出 了 大 数据 安全 与 隐私 保护 技术 框架 。 
其 中 上 既 包括 密码 学 访问 控制 等 传统 信息 安全 技术 手段 ,也 包括 数据 失真 ,扰动 等 数据 分 析 方 
法 。 两 者 之 间 的 有 机 融合 已 成 为 未 来 技术 发 展 的 必然 趋势 。 本 章 仅 概要 介绍 了 主要 技术 框 
架 , 具 体 技术 内 容 将 在 后 续 章节 陆续 予以 介绍 。 本 章 在 写作 过 程 中 也 参阅 了 文献 [48-50]。 

关于 密码 学 ,本 章 重点 介绍 了 基本 的 密码 学 工具 。 传 统 密码 学 主要 解决 信息 的 机 密 性 、 
完整 性 和 不 可 和 否认 性 等 问题 ,但 随 着 信息 技术 的 快速 发 展 和 应 用 ,密码 学 的 应 用 越 来 越 广 
泛 , 功 能 也 越 来 越 强大 ,在 本 书 的 后 面 各 章 中 都 充分 体现 了 这 一 点 。 本 章 主 要 介绍 了 加 密 技 
术 、 数 字 签 名 技术 、Hash 技术 .MAC 技术 和 密 钥 交换 技术 等 密码 学 基本 概念 。 和 希望 进一步 
学 习 和 掌握 密码 学 基础 知识 的 读者 可 参阅 文献 [51,52], 希 望 了 解密 码 学 最 新 进展 和 发 展 动 
态 的 读者 可 参阅 国际 密码 学 三 大 年 会 的 论文 集 以 及 中 国 密码 学 会 组 编 的 密码 学 发 展 年 度 报 
告 和 每 5 年 发 布 一 次 的 密码 学 学 科 发 展 报告 [5] 。 
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内 容 提要 : 在 大 数据 时 代 , 数 据 开 始 作 为 一 种 经 济 资产 被 人 们 广泛 采集 和 存储 ,并 有 偿 
或 无 偿 地 与 他 人 分 享 。 在 数据 资产 的 存储 和 分 享 过 程 中 ,人 们 和 希望 确保 数据 只 能 被 经 过 授 
权 的 用 户 访 问 和 使 用 。 这 就 是 信息 安全 领域 中 典型 的 访问 控制 问题 。 然 而 在 大 数据 场景 
下 ,由 于 数据 集 和 应 用 系统 呈现 的 一 些 新 特点 ,许多 传统 访问 控制 技术 开始 无 法 满足 现实 需 
求 。 本 章 将 围绕 该 问题 对 数据 安全 存储 和 访问 控制 相关 技术 进行 介绍 。 大 数据 的 存储 方式 
主要 分 为 两 大 类 : 私有 存储 和 外 包 存 储 。 私 有 存储 是 指 企业 或 组 织 自己 构建 数据 中 心 , 并 
将 采集 到 的 大 数据 集 存储 在 数据 中 心 。 这 种 存储 方式 需要 的 前 期 投资 较 大 ,所 以 主要 被 大 
型 企业 或 组 织 采 用 。 外 包 存 储 则 是 指 企业 或 组 织 购买 或 租用 第 三 方 提供 的 存储 资源 来 存储 
数据 。 相 比 于 私有 存储 ,外 包 存 储 的 方式 更 加 灵活 和 经 济 ,是 中 小 企业 或 组 织 的 首选 大 数据 
存储 方式 。 由 于 这 两 种 存储 方式 中 承担 存储 服务 的 参与 方 不 同 , 所 以 其 采用 的 安全 技术 也 
会 有 较 大 差异 。 本 章 首 先 对 早期 访问 控制 技术 进行 简单 介绍 ,并 指出 其 在 大 数据 场景 下 的 
局 限 性 ,然后 针对 上 述 两 种 存储 方式 分 别 从 基于 可 信 引 用 监控 机 的 访问 控制 和 基于 密码 学 
的 访问 控制 两 个 方面 对 大 数据 的 安全 存储 和 访问 控制 技术 进行 闪 述 。 早 期 的 自主 访问 控 
制 、 强 制 访问 控制 .基于 角色 的 访问 控制 .基于 属性 的 访问 控制 ,以 及 结合 了 数据 分 析 的 风险 
访问 控制 和 角色 挖 握 等 技术 ,都 属于 基于 可 信 引 用 监控 机 的 访问 控制 技术 。 它 们 的 安全 性 
建立 在 系统 具有 忠实 执行 访问 控制 策略 的 可 信 引 用 监控 机 的 基础 上 。 而 外 包 存 储 方式 的 存 
储 服务 是 第 三 方 提供 的 , 较 难 构建 可 信 引 用 监控 机 ,所 以 往往 采用 密码 技术 来 实施 访问 控 
制 , 例 如 基于 密 钥 管 理 的 访问 控制 技术 和 基于 属性 加 密 的 访问 控制 技术 。 

关键 词 : 自主 访问 控制 ;强制 访问 控制 ;基于 角色 的 访问 控制 ;基于 属性 的 访问 控制 ; 角 
色 挖 气 ; 风 险 访问 控制 ;广播 加 密 ; 基 于 公 钥 广播 加 密 的 访问 控制 ;属性 加 密 ; 基 于 属性 加 密 
的 访问 控制 。 


2.1 早期 访问 控制 技术 


早期 的 访问 控制 技术 都 是 建立 在 可 信 引 用 监控 机 基础 上 的 。 引 用 监控 机 是 在 1972 年 
由 Anderson 首次 提出 的 抽象 概念 品 , 它 能 够 对 系统 中 的 主体 和 客体 之 间 的 授权 访问 关系 
进行 监控 。 当 数据 存储 系统 中 存在 一 个 所 有 用 户 都 信任 的 引用 监控 机 时 ,就 可 以 由 它 来 执 
行 各 种 访问 控制 策略 ,以 实现 客体 资源 的 受 控 共享 。 

访问 控制 策略 是 对 系统 中 用 户 访问 资源 行为 的 安全 约束 需求 的 具体 描述 。 为 了 便于 表 
达 和 实施 ,这 些 策略 在 计算 机 中 会 被 对 应 地 归纳 和 实现 为 各 种 访问 控制 模型 。 因 此 ,访问 控 
制 模型 可 以 看 作 是 对 访问 控制 策略 的 进一步 抽象 .简化 和 规范 。 而 随 着 安全 约束 需求 的 变 
化 和 人 们 认识 水 平 的 提高 ,访问 控制 模型 也 在 不 断 地 演化 和 发 展 。 

在 20 世纪 70 年 代 , 大 型 资源 共享 系统 普遍 出 现在 政府 ,企业 和 组 织 中 。 为 了 应 对 系统 
中 的 资源 安全 共享 需求 ,访问 控制 矩阵 四 等 自主 访问 控制 模型 和 BLO Biba? 等 强制 访 
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问 控制 模型 被 提出 ,并 得 到 了 广泛 应 用 。 

自主 访问 控制 的 基本 思想 是 客体 的 属 主 决定 主体 对 客体 的 访问 权限 。 也 就 是 数据 所 有 
者 能 够 决定 其 数据 可 以 被 谁 访问 ,同时 能 够 决定 这 种 授权 是 否 可 以 被 进一步 传播 ,并 能 够 在 
任意 时 刻 将 之 前 的 授权 撤销 。 这 种 经 典 的 自主 访问 控制 模型 存在 如 下 一 个 明显 的 缺点 : 由 
于 授权 完全 由 用 户 自主 进行 ,所 以 当 恶 意 代码 被 用 户 启动 后 ,系统 就 无 法 分 辨 授权 行为 是 来 
站 合法 用 户 还 是 来 自 恶 意 代码 。 针 对 这 一 问题 ,Harrison 等 人 进一步 提出 了 改进 的 HRU 
模型 中 ,引入 了 对 权限 扩散 的 控制 ,也 就 是 在 权限 管理 方面 采用 了 数据 属 主 自主 管理 和 安全 
管理 员 限 制 相 结合 的 方式 。 

强制 访问 控制 模型 最 早 是 由 美国 政府 和 军 方 提出 的 ,用 于 对 系统 的 机 密 性 进行 保护 。 
它 与 自主 访问 控制 模型 最 大 的 区 别 在 于 其 访问 控制 策略 由 安全 管理 员 统 一 管理 ,而 不 是 由 
数据 属 主 来 授权 和 管理 数据 的 访问 权限 。 最 具 代表 性 的 强制 访问 控制 模型 是 BLP 和 Biba. 
它们 的 基本 思想 是 为 系统 中 每 个 主客 体 分 配 安全 标记 ,然后 依据 主客 体 安全 标记 之 间 的 支 
配 关 系 来 进行 访问 控制 。 由 于 安全 标记 之 间 的 支配 关系 是 满足 偏 序 性 质 的 ,可 以 形成 格 结 
构 , 因 此 ,强制 访问 控制 模型 又 可 称 为 基于 格 的 访问 控制 模型 。 

在 20 世纪 80 年 代 末 到 90 年 代 初 ,人 们 逐渐 发 现在 商业 系统 中 按照 工作 或 职位 进行 访 
问 权限 的 管理 会 更 加 方便 ,因此 ,基于 角色 的 访问 控制 (Role-Based Access Control,RBAC) 
模型 被 提出 ,并 发 展 成 为 迄今 在 企业 或 组 织 中 应 用 最 广泛 的 访问 控制 模型 之 一 。 基 于 角色 
的 访问 控制 模型 最 早 由 Ferraiolo 和 Kuhn 在 1992 年 提出 器 ,随后 由 Sandhu 等 人 进一步 完 
善 ,形成 了 RBAC96 HWM, RBACOo6 是 一 个 较为 完整 的 RBAC 模型 框架 ,对 模型 要 素 、 访 
问 控制 方式 、 权 限 管理 等 方面 都 进行 了 详细 论述 。2004 年 ,美国 国家 标准 技术 研究 所 
(NIST) 综 合 了 Ferraiolo 和 Sandhu 等 人 的 RBAC 模型 和 框架 ,为 RBAC 制定 了 统一 的 标 
准 , 并 被 采纳 为 美国 国家 标准 ANSI INCITS 359 一 2004。 

在 21 世纪 初 , 互 联网 技术 的 高 速 发 展 使 得 用 户 对 资源 的 访问 往往 不 再 处 于 一 个 相对 封 
闭 的 环境 下 。 开 放 环 境 为 访问 控制 带 来 了 两 个 新 特点 : 一 是 无 法 预先 获得 主客 体 身 份 的 全 
集 ; 二 是 通常 具有 隐 含 的 身份 隐藏 需求 。 而 自主 访问 控制 .强制 访问 控制 和 基于 角色 的 访问 
控制 技术 都 需要 先 获 取 用 户 的 身份 信息 ,然后 再 根据 其 身份 或 该 身份 所 绑 定 的 安全 标记 、 角 
色 等 信息 进行 访问 控制 判定 。 因 此 .这些 技术 难以 适应 开放 环境 。 针 对 这 些 问题 ,基于 属性 
的 访问 控制 (Attribute-Based Access Control, ABAC) I gi t Ms , 它 通过 安全 属性 来 定义 授 
权 ,而 不 需要 预先 知道 访问 者 的 身份 。 安 全 属性 可 看 作 一 些 安全 相关 的 特征 ,可 由 不 同 的 属 
性 权威 分 别 定义 和 维护 ,因此 ,该 技术 具备 较 高 的 动态 性 和 分 散 性 ,能 够 较 好 地 适应 开放 式 
环境 。 

本 节 主 要 对 自主 访问 控制 .强制 访问 控制 .基于 角色 的 访问 控制 .基于 属性 的 访问 控制 
等 模型 的 基本 概念 和 原理 进行 简要 介绍 ,并 对 这 些 技术 在 大 数据 场景 下 的 局 限 性 进行 归纳 
总 结 ,主要 取材 于 文献 [2-5,7,8]。 


2.1.1 几 个 基本 概念 


在 自主 访问 控制 .强制 访问 控制 .基于 角色 的 访问 控制 .基于 属性 的 访问 控制 等 模型 中 
都 涉及 如 下 概念 : 
(1) 主体 : 能 够 发 起 对 资源 的 访问 请 求 的 主动 实体 ,通常 为 系统 的 用 户 或 进程 。 
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(2) 客体 : 能 够 被 操作 的 被 动 实体 ,通常 是 各 类 系统 和 数据 资源 。 

(3) 操作 : 主体 对 客体 的 读 、 写 等 动作 或 行为 。 

(4) 访问 权限 : 客体 以 及 对 客体 的 操作 形成 的 二 元 组 二 操作 ,客体 二 。 

(5) 访问 控制 策略 : 对 系统 中 主体 访问 客体 的 约 东 需求 的 描述 。 

(6) 访问 (3 引用) 授权: 访问 控制 系统 按照 访问 控制 策略 进行 访问 权限 的 赋予 。 

(7) 引用 监控 机 (Reference Monitor, RM): 系统 中 监控 主体 和 客体 之 间 授 权 访问 关系 
的 部 件 。 它 的 模型 如 图 2-1 所 示 。 





访问 控制 信息 库 


| 


主体 ”| 一 一 | ”引用 监控 机 ”| 一 | ”客体 | 
Hol 引用 监控 机 模型 



































其 中 ,访问 控制 信息 库 记 录 了 访问 控制 系统 对 引用 监控 机 进行 授权 的 信息 ,而 引用 监控 
机 则 基于 这 些 授权 信息 来 约束 主体 对 客体 资源 的 访问 行为 。 

(8) 引用 验证 机 制 (Reference Validation Mechanism, RVM): RM 的 软 硬 件 实现 。 引 
用 验证 机 制 是 真实 系统 中 访问 控制 能 够 被 可 信 实 施 的 基础 。 它 必须 满足 如 下 3 个 属性 : 

(D 具有 自我 保护 能 力 。 

© 总 是 处 于 活跃 状态 。 

© 必须 设计 得 足够 小 ,以 便于 分 析 和 测试 。 

其 中 ,属性 确保 了 RVM 的 安全 性 , 即 能 够 抵抗 攻击 ;属性 @ 确 保 了 所 有 访问 行为 都 
受到 监控 , 即 访问 受 控 资源 时 ,RVM 机 制 不 能 被 绕 过 ;属性 @ 则 确保 了 RVM 实现 的 正确 性 
是 易于 验证 的 。 由 上 述 属性 可 知 ,在 数据 所 有 者 自己 负责 数据 存储 的 系统 中 ,是 能 够 建立 
RVM 并 验证 其 满足 这 3 个 属性 的 。 而 在 由 第 三 方 提供 存储 服务 的 系统 中 , 则 难以 构建 
RVM, 而 且 难 以 对 RVM 的 这 3 条 属性 进行 验证 。 


2.1.2 访问 控制 模型 


l 自主 访问 控制 模型 
自主 访问 控制 模型 可 以 被 表述 为 (S,0.4) 三 元 组 。 其 中 ,S 表示 主体 集合 ,O 表示 客体 
集合 , 且 SCO, A 表示 访问 矩阵 ,如 图 2-2 所 示 。 





o, i. ov 5 ET Sm 

sı [Aspo … do) ASS) ££ AMS Sm) 

s | Apo) … AS, 0) Alsps1) 1 ACSp Sm) 

Sn LAG. o) ce Amd Gg) crm AC ge sm) 
图 2-2 访问 矩阵 


在 访问 矩阵 中 ,s; 对 应 的 一 行 表 示 主 体 s; 对 系统 中 所 有 客体 的 访问 权限 信息 ,o BE s; 
对 应 的 一 列 则 表示 系统 中 所 有 主体 对 客体 o; 或 ;; 的 操作 权限 信息 ,A(s;,o0;) 则 表示 主体 s 





k 大 数据 安全 与 隐私 保护 





对 客体 o 的 操作 权限 。 因 此 ,自主 访问 控制 模型 的 实施 由 RM 根据 访问 矩阵 A 进行 判定 ， 
而 数据 属 主 对 权限 的 管理 通过 修改 访问 和 矩阵 A 来 完成 。 

由 于 实际 信息 系统 的 主体 和 客体 往往 较 多 ,所 以 自主 访问 控制 信息 不 适合 直接 采用 
图 2-2 的 形式 进行 记录 。 在 实际 系统 中 主要 有 两 种 实现 方式 : 基于 主体 的 自主 访问 控制 实 
现 和 基于 客体 的 自主 访问 控制 实现 。 

基于 主体 的 自主 访问 控制 实现 称 为 能 力 表 (Capabilities List, CL)。 该 表 记 录 了 每 一 个 
主体 与 一 个 权限 集合 的 对 应 关系 。 该 权限 集合 中 的 每 个 权限 则 被 表示 为 一 个 客体 以 及 其 上 
允许 的 操作 集合 的 二 元 组 , 即 权限 集合 中 的 每 个 权限 描述 了 指定 主体 能 够 在 某 客 体 上 执行 
的 操作 。 

基于 客体 的 自主 访问 控制 实现 称 为 访问 控制 列表 (Access Control List,ACL)。 该 表 记 
录 了 每 一 个 客体 与 一 个 权限 集合 的 对 应 关系 。 该 权限 集合 中 的 每 个 权限 则 被 表示 为 一 个 主 
体 以 及 其 能 够 进行 的 操作 集合 的 二 元 组 , 即 权 限 集合 中 的 每 个 权限 都 描述 了 指定 客体 能 够 
被 某 主体 执行 的 操作 。 

在 大 数据 环境 下 ,无 论 上 述 哪 种 实现 方式 ,自主 访问 控制 模型 都 将 面临 权限 管理 复杂 度 
爆炸 式 增长 的 问题 。 一 方面 ,大 数据 的 开放 式 应 用 场景 中 主体 数量 将 不 可 预 估 ; 男 一 方面 ， 
作为 客体 的 大 数据 集 具 有 规模 大 、 增 长 速度 快 的 特点 。 因 此 ,直接 采用 自主 访问 控制 模型 是 
非常 困难 的 。 

2. 强制 访问 控制 模型 

最 具 代 表 性 的 强制 访问 控制 模型 是 BLP 模型 和 Biba 模型 ,下 面 将 分 别 进行 介绍 。 

1) BLP 模型 

BLP 模型 用 于 保护 系统 的 机 密 性 ,防止 信息 的 未 授权 泄露 。 

BLP 模型 涉及 以 下 几 个 概念 : 

CD 安全 级 别 (Level) HF BLP 模型 被 用 于 确保 机 密 性 ,所 以 其 安全 级 别 的 取 值 对 应 
了 军事 类 型 的 安全 密级 分 类 : 公开 (UC) .秘密 (S)、 机 密 (C) .绝密 (TS)。 它 们 之 间 的 关系 
为 UC<S<C<TS。 

(2) 范畴 (Category)。 在 军事 系统 中 ,秘密 信息 不 仅 依靠 安全 级 别 进行 保护 ,还 应 满足 
“ 仅 被 需要 知悉 的 人 所 知悉 ”的 原则 。 在 BLP 模型 中 通过 范畴 的 定义 来 实现 该 原则 。 范 畴 
被 定义 为 一 个 类 别 信息 构成 的 集合 ,例如 { 中 国 , 军 事 , 科 技 }。 具 有 该 范畴 的 主体 能 够 访问 
那些 以 该 范畴 子 集 为 范畴 的 客体 。 即 ,如果 用 户 被 标识 为 { 中 国 ,军事 ,科技 } ,那么 在 安全 级 
别 允 许 的 情况 下 ,他 应 该 能 读 取 标识 为 多 ( 空 集 )、{ 中 国 }、{ 军 事 }、{ 科 技 }、{ 中 国 ,军事 }、{ 中 
国 ,科技 }、{ 军 事 , 科 技 }、{ 中 国 , 军 事 , 科 技 } 的 任意 一 个 范畴 的 客体 。 

(3) 安全 标记 (Label)。 由 安全 级 别 和 范畴 构成 的 二 元 组 二 Level, Category « fa] i < 
C. CPE RHE} >. 

(4) 支配 关系 (dom)。 设 有 安全 标记 A M B, 则 A dom B, 4 H.[X 4 Level, > Levels , 
Category, Category. Hii E X. n] AI ,安全 标记 之 间 的 支配 关系 可 以 形成 如 图 2-3 所 示 的 
格 结构 。 

在 为 系统 中 每 个 保护 范围 内 的 主客 体 都 分 配 了 安全 标记 后 ,主体 对 客体 的 访问 行为 应 
满足 如 下 两 条 安全 属性 : 
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«C, {中 国 ,科技 }> 








<C {中 国 }> <s, {中 国 科 技 > <C, [科技 }> 

















<S, {中 国 }> sS, {科技 > 
图 2-3 安全 标记 之 间 的 支配 关系 示意 图 


CD 简单 安全 属性 。 主 体 S 可 以 读 客体 O, 当 且 仅 当 Labels dom Labelo, 且 S 对 O 有 
自主 型 读 权限 。 

(2) * 安全 属性 。 主 体 S 可 以 写 客体 O, 当 且 仅 当 Labelo dom Labels, 且 S 对 O 具 有 
自主 型 写 权 限 。 

从 信息 流 角度 看 ,上 述 读 、 写 操作 所 应 遵循 的 安全 属性 阻止 了 信息 从 高 安全 级 别 的 主客 
体 流 入 低 安全 级 别 的 主客 体 , 且 使 得 信息 * 仅 被 需要 知悉 的 人 所 知悉 ”, 因 此 ,能 够 有 效 地 确 
保 数据 的 机 密 性 。 

2) Biba 模型 

Biba 模型 是 第 一 个 关注 完整 性 的 访问 控制 模型 ,用 于 防止 用 户 或 应 用 程序 等 主体 未 经 
授权 即 修改 重要 的 数据 或 程序 等 客体 。 该 模型 可 以 看 作 BLP 模型 的 对 偶 。 

Biba 模型 涉及 以 下 几 个 概念 : 

CD 完整 性 级 别 (Level) Biba 模型 不 关注 机 密 性 ,所 以 ,没有 使 用 BLP 模型 定义 的 安 
全 级 别 ,而 是 定义 了 完整 性 级 别 ,该 级 别 代 表 了 主客 体 的 可 信和 度 。 例 如 ,完整 性 级 别 高 的 主 
体 比 完整 性 级 别 低 的 主体 在 行为 上 具有 更 高 的 可 靠 性 ,完整 性 级 别 高 的 客体 比 完整 性 级 别 
低 的 客体 所 承载 的 信息 更 加 精确 和 可 靠 。 

(2) 范畴 (Category)。 与 BLP 模型 中 的 范畴 类 似 , 是 基于 类 别 信息 对 访问 行为 的 进 一 
HEA. BN. ee WiCategory, Category; W) A 能 写 人 B; 和 否则 ,A 不 能 写 和 人 B。 

(3) 完整 性 标记 (Label) 。 由 完整 性 级 别 和 范畴 构成 的 二 元 组 二 Level,Category 二 。 

(4) 支配 关系 (dom)。 设 有 完整 性 标记 A 和 B, 则 A dom B, 当 且 仅 当 Levela 宇 Levels， 
CategoryA 之 Categorys 。 由 该 定义 可 知 ,完整 性 标记 之 间 的 支配 关系 也 满足 偏 序 关系 ,并 能 
形成 格 结构 。 

Biba 模型 的 安全 策略 包括 3 种 : 低 水 印 (low-water-mark) 策 略 、 环 第 略 和 严格 完整 性 
策略 。 其 中 ,严格 完整 性 策略 在 不 特别 指明 的 情况 下 即 Biba 模型 。 具 体 地 ,主体 对 客体 的 
访问 行为 应 满足 如 下 安全 属性 : 

d) 完整 性 属性 。 主 体 S 能 够 写 客 体 0, 当 且 仅 当 Labels dom Labelo。 

(2) 调用 属性 。 主 体 S, 能 够 调用 主体 S; , 当 且 仅 当 Labels dom Labels: 。 

(3) 简单 完整 性 属性 。 主 体 S 能 够 读 客 体 0, 当 且 仅 当 Labelo dom Labels. 

基于 上 述 3 条 安全 属性 ,信息 只 能 从 高 完整 性 级 别 的 主客 体 流向 低 完整 性 级 别 的 主客 
体 ,从 而 有 效 避 免 了 低 完整 性 级 别 主客 体 对 高 完整 性 级 别 主客 体 的 完整 性 的 “污染 ”。 

从 上 述 BLP 和 Biba 模型 可 以 看 出 ,强制 访问 控制 是 基于 主客 体 标记 之 间 的 支配 关系 
来 实施 的 。 在 大 数据 场景 下 , 随 着 主客 体 规模 的 急剧 增长 ,安全 标记 和 完整 性 标记 的 定义 和 
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管理 将 变 得 非常 烦琐 ,另外 ,来 自 多 个 应 用 的 用 户主 体 和 数据 客体 也 将 使 得 安全 标记 和 完整 
性 标记 难以 统一 。 因 此 ,由 安全 管理 员 来 进行 授权 管理 的 强制 访问 控制 在 大 数据 场景 下 的 
应 用 也 是 具有 挑战 性 的 。 


3. 基于 角色 的 访问 控制 模型 
标准 RBAC 模型 包括 4 个 模型 一 一 RBAC0 一 RBAC3, 如 图 2-4 所 示 。 其 核心 为 


RBACO 模型 (Core RBAC) , 它 定 义 了 用 户 、 角 色 、 会 话 和 访 RBAC3 

问 权限 等 要 素 ,并 形式 化 地 描述 了 访问 权限 与 角色 的 关系 ， 

用 户 通 过 角色 间接 获得 权限 的 访问 控制 方式 。RBAC1 RBACI RBAC2 
ee RBAC) 在 RBACO 的 基础 上 引入 了 角色 继承 的 

概念 ,进一步 简化 了 权限 管理 的 复杂 度 。RBAC2 RBACO 


(Constraint RBAC) 则 增加 了 角色 之 间 的 约束 条 件 ,例如 互 ” 图 2-4 标准 RBAC 模型 框架 
斥 角 色 、 最 小 权限 等 。RBAC3 (Combines RBAC) 则 是 
RBACI 和 RBAC2 的 综合 ,探讨 了 角色 继承 和 约束 之 间 的 关系 。 

1) Core RBAC 

Core RBAC 定义 了 基于 角色 访问 控制 的 5 个 基本 元 素 一 一 用 户 、 角 色 、 对 象 、 操 作 、 权 
限 ,以 及 一 个 动态 的 概念 一 一 会 话 , 如 图 2-5 所 示 。 


PA 


权限 (PERM) 









user sessions session roles 


2-5 Core RBAC 


用 户 是 访问 控制 的 主体 ,在 系统 中 可 以 进行 访问 操作 。 

对 象 是 访问 控制 的 客体 ,是 系统 中 受 访问 控制 机 制 保护 的 资源 。 

操作 是 对 象 上 能 够 被 执行 的 一 组 访问 操作 。 

权限 是 对 象 及 其 上 指定 的 一 组 操作 ,是 可 以 进行 权限 管理 的 最 小 单元 。 

角色 是 RBAC 的 核心 概念 ,是 权限 分 配 的 载体 , 即 权 限 不 能 直接 分 配给 用 户 , 只 能 分 配 
给 角色 ,用 户 通过 取得 角色 来 获取 权限 。 因 此 ,角色 可 以 看 作 一 组 有 意义 的 权限 集合 。 

会 话 是 用 于 维护 用 户 和 角色 之 间 的 动态 映射 关系 的 概念 ,是 Constraint RBAC 中 动态 
职责 分 离 机 制 的 实现 基础 。 即 用 户 可 以 发 起 多 个 会 话 ,这 些 会 话 相 互 独立 ,并 可 通过 在 会 话 
中 激活 角色 来 获取 当前 会 话 中 被 许可 的 权限 。 

上 述 元 素 之 间 的 关系 如 下 : 

UA( 用 户 分 配 ): 用 户 和 角色 之 间 的 多 对 多 映射 关系 ,记录 了 管理 员 为 用 户 分 配 的 所 有 
角色 。 

PA( 特 权 分 配 ): 角色 与 权限 之 间 的 多 对 多 映射 关系 ,记录 了 管理 员 为 角色 分 配 的 所 有 
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权限 。 

user sessions; 用 户 与 会 话 之 间 的 一 对 多 映射 关系 。 即 一 个 用 户 可 以 通过 登录 操作 开 
启 一 个 或 多 个 会 话 ,而 每 个 会 话 只 对 应 一 个 用 户 。 同 一 个 用 户 开启 的 多 个 会 话 间 相互 独立 。 

session_roles: 会 话 与 角色 之 间 的 多 对 多 映射 关系 。 即 用 户 可 以 在 一 个 会 话 中 激活 多 
个 角色 ,而 一 个 角色 也 可 以 在 多 个 会 话 中 被 激活 。 在 Core RBAC 中 ,用 户 能 够 在 会 话 中 激 
活 角色 的 条 件 是 用 户 拥 有 该 角色 , 且 该 角色 未 在 此 会 话 中 被 激活 。 在 Constraint RBAC 中 
对 于 用 户 激活 角色 的 操作 会 有 更 进一步 的 约束 。 

2) Hierarchal RBAC 

在 Core RBAC 基础 上 ,Hierarchal RBAC 增加 了 角色 继承 操作 (Role Hierarchies, RH) 
来 进一步 简化 权限 管理 操作 ,如 图 2-6 所 示 。 即 一 个 角色 m 继承 了 另 一 个 角色 r WBA nm 
就 拥有 rs 的 所 有 权限 。 角 色 继 承 分 为 两 类 : 多 重 继 承 和 受 限 继承 。 多 重 继 承 是 指 一 个 角 
色 可 以 同时 继承 多 个 角色 , 且 角 色 继 承 应 满足 偏 序 关系 。 受 限 继 承 除 了 要 求 角 色 继 承 满足 
偏 序 关 系 外 ,还 要 求 只 能 继承 一 个 角色 ,因此 形成 的 继承 关系 为 树 形 结构 。 


a (an) 


权限 (PERM) 






PA 












user sessions session roles 


图 2-6 Hierarchal RBAC 


3) Constraint RBAC 

Constraint RBAC 在 Core RBAC 的 基础 上 引入 了 职责 分 离 的 概念 ,用 以 调节 角色 之 间 
的 权限 冲突 ,如 图 2-7 所 示 。 若 角色 m 和 角色 r 所 拥有 的 某 些 权限 是 冲突 的 ,那么 就 需要 
增加 职责 分 离 约束 ,使 两 个 角色 不 能 并 存 。 根 据 约 束 生效 的 时 期 不 同 ,这 些 约束 可 以 分 为 两 
类 : 静态 职责 分 离 (Static Separation of Duty, SSD) 和 动态 职责 分 离 (Dynamic Separation of 
Duty. DSD), 






PA 





操作 对 象 






权限 (PERM) 
user sessions 


图 2-7 Constraint RBAC 
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其 中 SSD 主要 作用 于 管理 员 为 用 户 分 配角 色 和 定义 角色 继承 关系 阶段 。 若 角色 A 
角色 v, 由 于 存在 权限 上 的 某 种 冲突 被 设 定 了 SSD 约束 ,那么 mn 和 m 不 能 同时 被 分 配给 同 
一 个 用 户 ,并 且 管 理 员 在 设置 角色 继承 关系 时 ,rm 和 之 间 不 能 存在 继承 关系 。 

DSD 主要 作用 于 用 户 激活 角色 的 阶段 。 若 角色 m 和 角色 r 由 于 存在 权限 上 的 某 种 冲 
突 被 设 定 了 DSD 约束 ,那么 m 和 m 不 能 在 一 个 会 话 中 被 用 户 同时 激活 。 

4) Combines RBAC 

Combines RBAC 是 在 Core RBAC 基础 上 对 Hierarchal RBAC 的 角色 继承 和 
Constraint RBAC 的 约束 的 综合 。 

现 阶段 ,RBAC 已 经 较为 成 熟 , 并 在 商业 领域 得 到 了 广泛 应 用 。 然 而 , 它 与 强制 访问 控 
制 一 样 都 由 安全 管理 员 进 行 权 限 的 管理 ,所 以 在 大 数据 场景 下 主客 体 规模 急剧 增长 时 ,安全 
管理 员 对 于 角色 的 精确 定义 和 授权 管理 将 变 得 困难 。 更 进一步 ,相对 于 传统 的 企业 或 组 织 
内 部 的 应 用 场景 ,大 数据 的 开放 式 数 据 共享 特点 要 求 安全 管理 员 具 备 多 领域 的 专业 知识 来 
预先 定义 所 有 角色 。 这 些 都 是 在 大 数据 场景 下 应 用 RBAC 模型 所 吸 待 解决 的 问题 。 


4. 基于 属性 的 访问 控制 模型 

基于 属性 的 访问 控制 模型 是 一 种 适用 于 开放 环境 下 的 访问 控制 技术 。 它 通过 安全 属性 
来 定义 授权 ,而 不 需要 预先 知道 访问 者 的 身份 。 安 全 属性 可 以 看 作 一 些 与 安全 相关 的 特征 ， 
可 以 由 不 同 的 属性 权威 分 别 定义 和 维护 。 因 此 ,ABAC 具备 较 高 的 动态 性 和 分 散 性 ,能 够 
较 好 地 适应 开放 环境 。 具 体 地 ., 它 包括 如 下 几 个 重要 概念 : 

A) 实体 (entity) : 指 系统 中 存在 的 主体 、 客 体 以 及 权限 和 环境 。 

(2) 环境 (environment) ; 指 访问 控制 发 生 时 的 系统 环境 。 

(3) 属性 (attribute): 用 于 描述 上 述 实体 的 安全 相关 信息 ,是 ABAC 的 核心 概念 。 它 
通常 由 属性 名 和 属性 值 构成 。 例 如 ,主体 属性 可 以 是 姓名 、 性 别 、 年 龄 等 ;客体 属性 可 以 是 创 
建 时 间 ,大 小 等 ;权限 属性 可 以 是 描述 业务 操作 读 写 性 质 的 创建 . 读 、 写 等 ;环境 属性 通常 与 
主客 体 无 关 , 可 以 是 时 间 日期、 系统 状态 等 。 

ABAC 的 框架 如 图 2-8 所 示 。AA 为 属性 权威 ,负责 实体 属性 的 创建 和 管理 ,并 提供 属 
性 的 查询 。PAP 为 策略 管理 点 ,负责 访问 控制 策略 的 创建 和 管理 ,并 提供 策略 的 查询 。 
PEP 为 策略 执行 点 ,负责 处 理 原始 访问 请 求 , 查 询 AA 中 的 属性 信息 ,生成 基于 属性 的 访问 
请 求 ,并 将 其 发 送 给 PDP 进行 判定 ,然后 根据 PDP 的 判定 结果 实施 访问 控制 。PDP 为 策略 
判定 点 ,负责 根据 PAP 中 的 策略 集 对 基于 属性 的 访问 请 求 进行 判定 ,并 将 判定 结果 返回 
PEP。 而 基于 属性 的 访问 请 求 可 以 看 作对 当前 访问 行为 中 主体 .客体 .权限 、 环 境 的 属性 的 
整体 描述 。 车 PAP 中 策略 所 要 求 的 属性 没有 被 基于 属性 的 访问 请 求 所 覆盖 , 则 需要 由 
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图 2-8 ABAC 框架 示意 图 
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PDP 从 AA 中 再 次 对 这 些 未 覆盖 的 属性 进行 查询 ,从 而 完成 对 基于 属性 的 访问 请 求 的 
HE. 

可 以 看 出 ,ABAC 较 适 合 应 用 于 大 数据 的 开放 式 数据 共享 环境 中 。 然 而 与 基于 角色 的 
访问 控制 所 面临 的 问题 类 似 , 在 ABAC 中 ,属性 的 管理 和 标记 对 于 安全 管理 员 来 说 仍然 是 
一 个 劳动 密集 型 工作 ,而且 需要 一 定 的 专业 领域 知识 。 在 大 数据 场景 下 ,数据 规模 和 应 用 复 
杂 度 使 得 这 一 问题 更 加 严重 。 


2.1.3 局 限 性 分 析 


基于 对 上 述 早期 访问 控制 技术 的 回顾 ,本 节 对 它们 在 大 数据 应 用 场景 下 存在 的 问题 进 
行 总 结 ,主要 包括 以 下 3 个 方面 : 

(1) 安全 管理 员 的 授权 管理 难度 更 大 。 在 访问 控制 系统 中 ,哪些 资源 能 够 被 哪些 用 户 
访问 通常 是 由 安全 管理 员 定义 的 。 在 大 数据 应 用 中 ,安全 管理 员 的 授权 管理 难度 会 急剧 增 
加 ,主要 原因 有 两 个 。 一 方面 ,大 数据 的 规模 和 增长 速度 使 得 安全 管理 员 进行 权限 管理 的 工 
作 量 极 大 地 增加 了 。 另 一 方面 ,开放 式 的 大 数据 应 用 环境 ,使 得 安全 管理 员 必 须 具备 更 多 的 
领域 知识 来 实施 权限 管理 。 例 如 ,在 医疗 大 数据 场景 中 ,数据 集 可 能 包含 医生 个 人 信息 , 病 
人 个 人 信息 、 电 子 病例 ,社保 信息 等 ,而 用 户 则 可 能 包括 医院 的 医生 、 护 十 .后 勤 人 员 以 及 各 
种 社保 工作 人 员 ,甚至 包括 一 些 医学 研究 机 构 的 人 员 等 。 相 比 于 之 前 单独 的 医疗 系统 、 社 保 
系统 或 科研 支撑 系统 ,安全 管理 员 需 要 了 解 更 多 的 领域 知识 来 完成 安全 标记 定义 、 角 色 定 义 
或 属性 定义 等 权限 管理 操作 。 因 此 ,在 大 数据 场景 中 ,管理 员 往 往 难以 准确 地 进行 授权 ,过 
度 授 权 和 授权 不 足 的 现象 将 越 来 越 多 。 针 对 这 个 问题 ,在 大 数据 场景 下 ,安全 管理 员 由 于 人 
力 和 领域 知识 两 方面 的 限制 ,迫切 需要 一 些 自动 化 或 半自动 化 的 技术 来 简化 其 授权 管理 
工作 。 

(2) 严格 的 访问 控制 策略 难以 适用 。 大 数据 的 一 个 显著 特点 是 先 有 数据 、 后 有 应 用 。 
人 们 在 采集 和 存储 数据 时 ,往往 无 法 预先 知道 所 有 的 数据 应 用 场景 ,因此 ,经 常会 出 现 一 些 
新 的 数据 访问 需求 。 若 预先 定义 的 访问 控制 策略 过 于 严格 ,那么 新 的 访问 需求 很 可 能 由 
于 不 能 完全 符合 允许 访问 的 条 件 而 被 拒绝 ,从 而 影响 大 数据 系统 的 可 用 性 。 若 预先 定义 
的 访问 控制 策略 过 于 宽松 ,那么 虽然 系统 的 可 用 性 得 到 了 保障 ,但 是 系统 的 安全 性 却 大 
幅 降低 。 因 此 ,在 无 法 预知 所 有 数据 访问 需求 的 情况 下 ,严格 执行 预先 定义 的 访问 控制 
策略 是 难以 实现 的 ,因此 ,需要 一 种 能 够 在 访问 控制 过 程 中 自 适应 地 调整 权限 的 技术 来 
解决 该 问题 。 

(3) 外 包 存储 环境 下 无 法 使 用 。 大 数据 的 一 种 重要 存储 方式 是 外 包 存 储 , 即 数据 所 有 
者 与 数据 存储 服务 提供 者 是 不 同 的 。 这 就 产生 了 数据 存储 需求 与 安全 需求 之 间 的 矛盾 : 一 
方面 ,数据 所 有 者 有 利用 数据 存储 服务 进行 数据 存储 和 分 享 的 需求 ; 另 一 方面 ,又 不 具备 在 
数据 存储 服务 中 建立 自己 信任 的 引用 监控 机 的 能 力 , 也 就 无 法 采用 上 述 早期 访问 控制 技术 
来 确保 数据 安全 。 因 此 ,除了 采用 法 律 、 信 誉 等 手段 让 数据 所 有 者 信任 数据 存储 服务 提供 者 
能 按照 访问 控制 策略 对 数据 进行 保护 外 ,还 需要 一 些 技 术 手 段 来 确保 无 可 信 引 用 监控 机 场 
景 下 的 数据 安全 。 密 码 技术 为 解决 该 问题 提供 了 另 一 条 途径 , 它 能 够 将 数据 的 安全 性 建立 
在 密 钥 的 安全 性 基础 上 ,因此 ,这 种 基于 密码 学 的 访问 控制 技术 将 是 大 数据 安全 存储 研究 中 
的 重要 方向 。 
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2.2 基于 数据 分 析 的 访问 控制 技术 


近年 来 , 随 着 大 数据 相关 技术 的 发 展 和 成 熟 , 以 数据 处 理 为 中 心 的 大 型 复杂 系统 纷纷 涌 
现 。 在 这 些 系统 中 ,数据 集 的 规模 和 增长 速度 以 及 系统 面临 的 用 户 的 复杂 性 都 为 访问 控制 
策略 的 制定 和 授权 管理 工作 带 来 了 巨大 挑战 。 为 了 应 对 这 些 问题 ,一 些 旨 在 提高 访问 控制 
系统 自动 化 水 平和 增强 自 适 应 性 的 技术 引起 了 人 们 的 关注 。 

访问 控制 技术 中 都 存在 一 些 核心 概念 ,例如 MAC 中 的 安全 标记 、RBAC 中 的 角色 、 
ABAC 中 的 属性 等 。 它 们 必须 在 实施 访问 控制 前 被 定义 。 以 RBAC 为 例 ,安全 管理 员 必 须 
解决 两 个 问题 : 创建 哪些 角色 ? 角色 与 用 户 、 角 色 与 权限 如 何 关联 ? 与 这 两 个 问题 有 关 的 
工作 也 被 称 为 角色 工程 co ,其 目标 是 定义 一 个 完整 .正确 和 高 效 的 角色 集合 。 通 常 有 两 种 
解决 方式 50 : 自 顶 向 下 和 自 底 向 上 。 前 者 是 基于 领域 知识 对 业务 流程 或 场景 进行 分 析 , 归 
纳 安全 需求 ,并 在 此 基础 上 进行 角色 的 定义 。 其 特点 在 于 对 人 工 、 领 域 知 识 要 求 较 高 ,同时 
对 业务 的 熟悉 程度 也 有 较 强 的 依赖 。 因 此 , 自 顶 向 下 方式 在 大 型 复杂 系统 中 较 难 实施 。 

为 了 解决 该 问题 , 自 底 向 上 定义 角色 的 方法 被 提出 , 即 采用 数据 挖掘 技术 从 系统 的 访问 
控制 信息 (Access Control Information,ACJI) 等 数据 中 获得 角色 的 定义 ,也 被 称 为 角色 挖掘 
(role mining)? 。 类 似 地 ,其 他 访问 控制 技术 中 的 核心 概念 也 可 以 采用 自 底 向 上 的 方式 进 
行 定义 。 例 如 ,RBAC 可 以 看 作 ABAC 的 单 属性 特例 ,所 以 在 ABAC 中 也 可 以 借鉴 该 方法 
来 进行 属性 的 定义 和 权限 管理 工作 3。 具体 地 ,早期 的 角色 挖掘 04 号 主要 采用 层次 聚 类 算 
法 从 系统 已 有 的 用 户 -权限 分 配 关系 中 自动 地 获得 角色 ,并 建立 用 户 -角色 、 角 色 - 权 限 的 映 
射 。 近 年 来 ,为 了 进一步 提高 角色 定义 的 质量 ,人 们 开始 对 用 户 的 权限 使 用 记录 等 更 丰富 的 
数据 集 进行 分 析 , 即 考虑 了 权限 使 用 的 频繁 程度 和 用 户 属性 等 因素 ,从 而 使 得 角色 挖掘 的 结 
果 更 加 符合 系统 中 的 实际 权限 使 用 情况 9 。 

自 适应 的 访问 控制 技术 的 主要 代表 是 风险 访问 控制 。 它 对 访问 行为 进行 风险 的 评估 ， 
在 访问 过 程 中 动态 地 实施 风险 与 收益 的 权衡 ,并 在 此 基础 上 进行 访问 控制 ,因此 ,具有 较 强 
的 自 适应 性 。 文 献 [17] 是 较 早 将 风险 引入 访问 控制 领域 的 工作 , 它 定 义 了 风险 量化 和 访问 
配额 等 概念 ,并 给 出 了 基于 风险 的 信息 系统 应 该 满足 的 一 些 指导 性 原则 和 建议 。 在 风险 度 
量 方面 ,文献 L[18,19] 提 出 了 对 目标 客体 敏感 程度 .客体 的 数量 .客体 之 间 的 互 斥 关系 .访问 
主体 的 安全 级 别 等 要 素 进行 静态 风险 度量 的 方法 。 而 文献 [20,21] 则 是 通过 协同 过 滤 的 方 
式 来 动态 度量 访问 风险 , 即 对 某 主 体 的 访问 行为 与 其 他 主体 的 访问 行为 的 差异 性 进行 量化 
来 得 到 风险 值 。 在 访问 控制 判定 时 ,需要 先 将 风险 值 映射 为 {0,1) ,再 实施 “允许 /拒绝 ”的 二 
值 判定 ,主要 包括 风险 阔 值 9 和 风险 配额 *" 沁 两 种 方式 。 更 进一步 ,文献 [19] 提 出 了 “风险 
带 ” 的 概念 ,在 “允许 "和 “拒绝 ”之 间 增 加 了 “部 分 允许 ”, 即 实现 了 “符合 部 分 访问 控制 条 件 的 
请 求 获得 部 分 访问 权限 ”的 访问 控制 。 这 些 技术 极 大 地 提高 了 访问 控制 的 灵活 性 ,能 够 为 大 
数据 场景 下 访问 控制 的 实施 提供 一 定 借鉴 。 

本 节 有 针对 性 地 选取 了 两 种 具有 自动 化 、 自 适应 特点 的 角色 挖掘 和 风险 访问 控制 技术 
进行 详细 介绍 ,主要 取材 于 文献 [14-16 ,18-22] 。 


2.2.1 角色 挖掘 技术 
本 节 分 别 对 基于 层次 聚 类 的 角色 挖掘 方法 和 生成 式 角色 挖掘 方法 进行 介绍 。 
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l. 基于 层次 聚 类 的 角色 挖 握 

在 业务 流程 中 ,人 们 为 了 完成 工作 就 需要 拥有 一 些 数据 访问 权限 的 组 合 。 即 ,系统 在 初 
始 情况 下 往往 已 经 有 了 简单 的 访问 权限 分 配 ,规定 了 哪些 用 户 能 够 访问 哪些 数据 。 例 如 , 某 
系统 已 有 的 授权 信息 如 表 2-1 所 示 。 而 这 些 权限 组 合 往往 暗示 着 为 了 完成 工作 而 应 该 设置 
的 角色 。 因 此 ,可 以 对 已 有 的 权限 分 配 关 系 进 行 数据 挖掘 来 寻找 潜在 的 角色 概念 ,并 将 角色 
与 用 户 、 角 色 与 权限 分 别 关联 。 


表 2-1 系统 的 授权 信息 示例 














用 户 权限 1 权限 2 权限 3 权限 4 权限 5 
HP A v v v 

HP B v v 

用 户 C v v v 
HPD v v v v v 

















我 们 将 角色 看 作 大 量 用 户 共享 的 一 些 权限 组 合 ,并 假设 真实 的 角色 定义 已 经 正确 且 完 
整地 隐 含 在 当前 的 授权 数据 中 。 也 就 说 ,所 有 人 持 有 的 权限 都 是 有 意义 的 ,同时 已 有 的 权限 
分 配 都 是 正确 的 。 在 该 假设 下 ,可 以 采用 聚 类 的 方法 来 发 现 角 色 。 聚 类 是 一 种 非 监督 场景 
下 的 发 现 数据 潜在 模式 的 经 典 方法 。 系 统 的 用 户 基 数 越 大 ,权限 越 多 ,这 种 权限 分 配 的 潜在 
模式 就 越 明显 ,采用 聚 类 进行 角色 挖掘 的 效果 就 越 好 。 

同时 ,由 于 标准 RBAC 模型 中 角色 可 以 继承 并 形成 层次 结构 ,所 以 在 聚 类 时 通常 选择 
层次 聚 类 算法 以 支持 角色 继承 。 基 于 层次 聚 类 的 角色 挖掘 根据 层次 聚 类 方式 的 不 同 又 可 分 
为 凝聚 式 角色 挖掘 "9 和 分 裂 式 角色 挖掘 55 。 

D 凝聚 式 角色 挖掘 

凝聚 式 层次 聚 类 是 将 每 个 对 象 作为 一 簇 ,然后 不 断 合并 成 为 更 大 的 簇 ,直到 所 有 的 对 象 
合并 为 一 个 类 簇 或 满足 某 个 终止 条 件 。 下 面 给 出 一 种 基于 该 算法 的 角色 挖掘 方法 。 

基本 思想 

凝聚 式 角色 挖掘 方法 将 权限 看 作 待 聚 类 的 对 象 , 初 始 时 将 每 个 权限 作为 一 个 类 簇 ,通过 
不 断 合并 距离 近 的 类 簇 完 成 对 权限 的 层次 聚 类 ,其 聚 类 结果 对 应 候选 的 角色 及 它们 的 继承 
关系 。 两 个 权限 类 簇 之 间 的 距离 是 由 它们 之 间 的 共同 用 户 数 量 以 及 它们 所 包含 的 权限 数量 
决定 的 。 两 个 类 簇 的 共同 用 户 数 量 越 多 , 且 包 含 的 权限 数量 越 多 , 则 两 个 类 簇 的 距离 越 近 。 

基本 定义 

HFK (Cluster) 一 个 由 权限 和 持 有 这 些 权 限 的 用 户 组 成 的 二 元 组 c = < rights. 
members 二 ,其 中 rights(c) 表 示 c 的 一 个 权限 集合 ,members(c) 表 示 拥 有 rights(c) 的 所 有 
权限 的 用 户 集合 。 

可 以 看 出 ,类 簇 是 由 权限 集合 来 确定 的 ,权限 集合 通过 类 簇 与 用 户 联 系 起 来 ,使 得 该 权 
限 集合 能 够 描述 更 大 量 的 用 户 。 

用 户 集合 Persons: 所 有 用 户 组 成 的 集合 。 

KEA Clusters: 包含 所 有 类 簇 的 聚 类 结果 集 。 

偏 序 关系 集合 二 : 类 簇 之 间 的 偏 序 关 系 构成 的 集合 。 
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无 偏 序 关系 类 簇 集合 Ta: 类 簇 集合 中 的 类 艇 ,两 两 间 不 存在 偏 序 关系 。 即 
T-— (c € Clusters: dd € Clusters:c < d} 
EI FER ERM <c d> € TH FE XC 
members(< c,d >) = members(c) f] members(d) 
rights(< c.d >) = rights(c) U rights(d) 

算法 2-1 凝聚 式 角 色 挖 掘 算法 。 

输入 : 所 有 权限 及 持 有 权限 的 用 户 。 

输出 一 个 类 簇 构成 的 树 结构 , 即 Clusters M<., 

(1) 初始 化 变量 。 

Clusters: = Ø 

<:= Ø 

T<: =Ø 

(2) 为 所 有 单个 权限 r BI EE — PE HE c,, 并 将 其 放 和 人 类 簇 集合 Clusters 和 无 偏 序 关 系 
类 簇 集合 T<. 

rights(c,) = (r) 

members(c,) = ( p € Persons: p has permission r} 

Clusters: — ClustersU {c,} 

T<:=T< U{ce,} 

G) 按照 自 底 向 上 的 层次 聚 类 算法 A SHS He EKR. BAe AS 
最 近 的 类 簇 对 的 寻找 方式 为 : 寻找 出 拥有 共同 用 户 最 多 的 类 簇 对 集合 S, 再 从 S 中 选 出 包 
含 权 限 最 多 的 类 簇 对 集合 。 即 

m=max{ | members (—c.d77 ) | :c.d€ Te} 

S={<c,d>:|members(<c,d>) | mAc.d€ Te} 

r—max( |rights(<c.d>)|:<c.d>€S} 

E={<c,d>:|rights(<c.d>)|=rA<c,d>€S} 

也 就 是 说 ,两 个 类 簇 的 距离 通过 共有 的 用 户 数量 和 包含 的 权限 数量 来 表示 。 共 有 用 户 
数量 越 多 , 且 包 含 权 限 数量 越 多 , 则 两 个 类 簇 被 认为 越 接近 。 

然后 从 EE 中 选择 任意 一 个 类 簇 对 二 c,d 二 合并 产生 新 的 类 簇 e, 其 中 : 

rights(e)=rights(c) Urights(d) 

members(e)=members(c) N members(d) 

(4) 更 新 Clusters, 一 、T- 变 量 : 

Clusters: =ClustersU {e} 

<:=<U {<c e>, <d, e>} 

T«:— T«Mo,d) 


T<:=T<U {e} 
(5) 重复 第 (3) 步 和 第 (4) 步 ,直到 T- 为 空 。 
2) 分 裂 式 角色 挖掘 


分 裂 式 层 次 聚 类 是 将 所 有 对 象 作为 一 复 ,然后 按照 一 定 条 件 不 断 细 分 ,直到 每 个 对 象 作 
为 一 个 类 簇 ,或 者 满足 某 个 终止 条 件 。 下 面 给 出 一 种 基于 该 算法 的 分 裂 式 角色 挖掘 方法 。 
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基本 思想 

分 裂 式 角色 挖掘 方法 是 将 初始 较 大 的 权限 集合 不 断 地 细 分 为 更 小 的 权限 集合 ,从 而 形 
成 由 权限 类 簇 构 成 的 树 。 然 而 与 一 般 分 柳 式 层次 聚 类 略微 不 同 的 是 , 它 的 初始 类 簇 不 是 所 
有 权限 构成 的 一 个 集合 ,而 是 采用 了 更 有 实际 意义 的 多 个 “有 用 户 持 有 的 权限 组 合 "。 权 限 
类 簇 分 裂 的 方法 是 : 对 类 簇 所 包含 的 权限 集合 求 交集 ,车 新 产生 的 权限 类 簇 没有 用 户 持 有 ， 
则 不 作为 候选 角色 ,否则 将 作为 候选 角色 。 根 据 求 类 簇 交 集 的 计算 范围 的 不 同 ,又 可 以 分 为 
完全 角色 挖掘 和 快速 角色 挖掘 。 完 全 角色 挖掘 是 针对 所 有 的 初始 类 徐 和 新 产生 的 类 簇 求 交 
集 ,而 快速 角色 挖掘 则 只 对 初始 类 簇 求 交 集 , 所 以 后 者 的 效率 非常 高 ,但 是 只 能 发 现 部 分 候 
选 角色 。 

基本 定义 

U 表示 系统 中 的 所 有 用 户 构成 的 集合 。 

P(w) 表 示 用 户 w 所持 有 的 权限 集合 。 

R(xz) 表 示 由 权限 集合 x 构成 的 角色 。 

Count (NKR H få E r 相关 联 的 用 户 的 数量 。 

intersection G KRH E i 和 角色 j 所 共有 的 权限 构成 的 集合 。 

算法 2-2 分裂 式 角色 挖掘 算法 。 

输入 : 所 有 权限 及 持 有 权限 的 用 户 。 

输出 : 一 个 候选 角色 集合 GenRoles 和 其 中 每 个 角色 的 用 户 数 Count). 

CD 识别 初始 角色 集合 InitRoles。 将 每 个 用 户 w EU 持 有 的 权限 集合 P(uw ) 都 作为 一 
个 初始 的 角色 RCP(Cuw)) ,并 加 入 InitRoles ,同时 计算 Init Roles 中 每 个 初始 角色 相关 联 的 用 
户 的 个 数 Count(R(P(u)))。 

(2) 利用 交集 运算 产生 GenRoles。 对 初始 角色 集合 InitRoles 中 的 所 有 角色 两 两 一 对 
(分 别 用 i 和 j 表示 ) 进 行 权 限 的 交集 运算 ,并 将 产生 的 新 的 权限 集合 intersection(i,j) 作 为 
新 的 角色 R(intersection(i,j))。 若 新 角色 R(intersection(i,j)) 没 有 任何 用 户 与 之 关联 , 则 
不 加 入 GenRoles ,否则 将 其 加 入 GenRoles。 此 外 ,车 采用 完全 角色 挖掘 方式 ,新 角色 R 
(intersection(i,7)) 还 将 进一步 参与 交集 运算 (注意 ,由 于 计算 所 有 可 能 的 交集 运算 的 时 间 
复杂 度 是 非常 高 的 ,因此 ,通常 只 计算 两 个 角色 的 权限 交集 ,而 忽略 3 个 或 更 多 的 角色 的 权 
限 交 集 )。 

(3) 用 户 数 量 统计 。 为 每 个 GenRoles 中 的 角色 -~ 统计 其 关联 的 用 户 数 Count(x) ,以 支 
持 进一步 对 这 些 候 选 角色 进行 排序 。 

3) 层次 聚 类 结果 分 析 

以 上 两 个 算法 都 得 到 了 一 个 关于 权限 集合 (候选 角色 ) 的 层次 结构 ,但 该 结构 并 不 能 直 
接 转化 为 具有 继承 关系 的 角色 集合 ,必须 依赖 专家 知识 进一步 验证 和 转化 。 主 要 原因 如 下 : 

(1) 权限 积累 会 为 聚 类 分 析 引 入 较 多 噪声 。 权 限 积累 是 指 系统 的 用 户 从 一 个 工作 岗位 
换 到 另 一 个 工作 岗位 ,管理 员 往 往 为 其 增加 新 岗位 所 需要 的 权限 , 却 没有 彻底 撤销 该 用 户 的 
原 有 权限 。 这 种 由 于 工作 岗位 更 换 带 来 的 权限 积累 会 影响 挖掘 结果 ,使 得 聚 类 层次 中 出 现 
一 些 不 具有 角色 语义 的 类 簇 。 

(2) 聚 类 层次 和 角色 层次 在 结构 上 不 是 一 一 对 应 的 。 凝 聚 式 角色 挖掘 通常 会 产生 包含 
大 量 权 限 的 超级 类 簇 ,而 角色 的 继承 通常 不 会 产生 这 种 超级 角色 。 类 似 地 ,分裂 式 角色 挖掘 
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往往 在 分 裂 过 程 中 会 产生 许多 很 小 的 权限 集合 ,而 这 些小 权限 集合 不 一 定 适 合作 为 有 意义 
的 角色 。 

(3) 凝聚 式 角色 挖掘 方法 不 符合 权限 使 用 规律 。 从 凝聚 式 角色 挖掘 过 程 可 以 看 到 ,一 
个 权限 在 被 纳入 类 簇 时 是 排他 的 , 即 该 权限 被 纳入 一 个 类 簇 后 ,只 能 被 合并 该 类 簇 的 父 类 簇 
包含 。 这 就 造成 该 权限 只 能 被 一 个 候选 角色 及 继承 它 的 角色 所 包含 。 而 现实 系统 中 的 权限 
使 用 往往 不 是 排他 的 ,一 个 权限 可 能 会 被 分 配给 多 个 相互 之 间 没 有 继承 关系 的 角色 。 

为 了 解决 这 些 问题 ,往往 需要 引入 专家 知识 对 聚 类 过 程 进行 指导 ,或 对 聚 类 产生 的 结果 
进行 语义 上 的 验证 。 即 便 存在 上 述 差异 或 缺点 ,这 种 自 底 向 上 的 基于 层次 聚 类 的 角色 挖掘 
方法 仍然 能 为 大 数据 场景 下 的 角色 管理 工作 提供 支持 , 减 小 安全 管理 员 的 工作 量 。 

2. ERK A BAB 

从 上 面 两 个 早期 的 基于 层次 聚 类 的 角色 挖掘 方法 可 以 看 出 ,它们 能 够 月 动 化 地 从 复杂 
的 权限 分 配 关 系 中 挖掘 出 潜在 或 候选 的 角色 集合 , 供 安全 管理 员 进 一 步 验证 和 选择 。 然 而 ， 
由 于 它们 是 对 已 有 的 权限 分 配 数据 进行 角色 挖掘 ,因此 ,挖掘 结果 的 质量 往往 过 多 地 依赖 于 
已 有 权限 分 配 的 质量 。 而 对 于 大 数据 应 用 这 种 复杂 场景 来 说 ,已 有 权限 分 配 的 质量 往往 很 
难保 证 。 针 对 该 问题 ,一 些 研究 者 开始 基于 更 丰富 的 数据 集 进行 角色 挖掘 ,以 期 获得 更 好 的 
挖掘 效果 。 下 面 介 绍 一 种 基于 权限 使 用 日 志 的 角色 挖掘 方法 , 它 的 角色 挖掘 结果 能 够 更 加 
准确 地 反映 权限 的 真实 使 用 情况 ,而 不 局 限于 已 有 权限 分 配 的 准确 性 29 。 

其 基本 思路 是 : 将 角色 挖掘 问题 映射 为 文本 分 析 问 题 ,采用 两 类 主题 模型 一 一 LDA 
(Latent Dirichlet Allocation, 潜 在 狄 利克 雷 分 布 ) 和 ATM(Author-Topic Model, 作 者 -主题 
模型 ) 进 行 生成 式 角色 挖掘 ,从 权限 使 用 情况 的 历史 数据 来 获得 用 户 的 权限 使 用 模式 ,进而 
产生 角色 ,并 为 它 赋予 合适 的 权限 ,同时 根据 用 户 属 性 数据 为 用 户 分 配 恰当 的 角色 。 

1) 生成 式 角色 挖掘 问题 的 定义 

U 是 系统 中 用 户 的 集合 。 

P 是 系统 中 权限 的 集合 。 

UP 是 用 户 与 权限 的 映射 ,UPSUXP。 

USAGE:U X PZ 是 一 个 函数 ,输入 为 (u,p)EUXP, 输 出 为 用 户 wx 使 用 权限 p 的 
次 数 。 

GUPA:UXP>{0,1) 是 一 个 以 USAGE 为 基础 定义 的 函数 ,该 函数 的 输入 为 (u,p)€ 
U™ Pi Hy 0 BK 1, Xi USAGEG,j)>0, W) GUPAG.;0 —1. 49] GUPAC.j)—0, 

生成 式 角色 挖掘 的 结果 为 两 个 集合 : 

PA 是 角色 与 权限 的 映射 关系 ,PACRXP。 

UA 是 用 户 与 角色 的 映射 关系 ,UACUXR。 

为 了 度量 角色 挖 握 结果 的 质量 ,给 出 4 距离 定义 : 
iDISTANCE = || (GUPA — UA X PA) * USAGE ||, +à x || UA X PA— GUPA ||, 
Hp, | |All, RERE A 的 L1 范 数 , 即 每 一 列 元 素 取 绝 对 值 的 加 和 的 最 大 值 。 

UAXPA 为 一 个 二 进 制 矩阵 ,表示 能 用 角色 进行 关联 的 用 户 和 权限 的 关系 , 若 存在 该 
关系 , 则 为 1 ,否则 为 0。 

基于 4 距离 ,可 以 给 出 一 个 生成 式 角色 挖掘 问题 的 定义 : 给 定 一 个 用 户 集 合 U、 权 限 集 
& PR USAGE A ZUR E ,发 现 一 个 有 k 个 角色 的 集合 ,并 使 得 对 应 的 UA 和 PA 能 够 
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让 入 距离 最 小 。 

2) 基于 LDA 和 ATM 的 角色 挖掘 

基本 的 主题 模型 认为 语料库 中 的 一 篇 文档 是 由 一 组 词 构 成 的 集合 , 词 与 词 之 间 无 顺序 
关系 。 一 篇 文档 包括 多 个 主题 ,文档 中 的 每 个 词 都 是 由 其 中 一 个 主题 产生 的 。 也 就 是 存在 
两 个 多 项 式 概率 分 布 9 和 $$ ,9 是 一 个 文档 中 的 主题 分 布 ,$ 是 一 个 主题 对 应 的 单词 出 现 的 
概率 分 布 。 因 此 ,一 个 文档 可 以 按照 如 下 步骤 产生 : 

CD 从 文档 i 的 主题 分 布 0; 中 抽样 生成 第 j 个 词 的 主题 xy。 

(2) 从 主题 x;,; 的 单词 分 布 $， 中 抽样 产生 单词 wi, 。 

按照 上 述 步 又 就 能 够 逐个 产生 单词 以 形成 一 篇 文档 。 

更 进一步 ,LDA 模型 认为 9 和 $$ 也 应 该 满足 一 定 的 概率 分 布 ,而 不 是 固定 值 ,因此 引入 
T a 和 8B 两 个 狄 利克 雷 分 布 参 数 来 完善 文档 的 生成 过 程 。 因 此 ,一 篇 文档 的 产生 步骤 就 变 
成 了 如 下 过 程 : 

CD 从 a 中 抽样 产生 文档 i 的 主题 分 布 0;。 

(2) 从 文档 i 的 主题 分 布 0; 中 抽样 生成 文档 i 的 第 j 个 词 的 主题 xy 。 

G) 从 8B 中 抽样 产生 主题 xy 的 单词 分 布 %-，。 

C4) 从 主题 x;,; 的 单词 分 布 $. 中 抽样 产生 单词 wijo 

采用 这 种 方法 ,多 项 式 分 布 9 和 $$ 分别 由 犹 利克 雷 分 布 a 和 8B 产生 ,如 图 2-9(a) 所 示 。 
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图 2-9 LDA 5 ATM 模型 


ATM 模型 是 LDA 模型 的 一 种 扩展 , 它 认 为 不 同 的 作者 在 选择 主题 时 有 不 同 的 偏好 ， 
其 模型 如 图 2-9(b) 所 示 。0 是 一 个 作者 相关 的 主题 分 布 , 即 反映 了 他 在 创作 文档 时 选择 主 
Bi Ef. a, 是 一 组 要 参与 文档 d 撰写 工作 的 作者 集合 ,x 是 从 as 中 随机 选 出 一 个 作者 。 
具体 地 ,一 个 文档 的 产生 步骤 如 下 : 

CD) 针对 文档 d 的 第 j 个 单词 ,从 参与 文档 d 撰写 工作 的 作者 集合 as 中 随机 选 出 一 个 
TER x. 

(2) 从 a 中 抽样 产生 作者 z 的 主题 分 布 9,。 

(3) 从 作者 zx 的 主题 分 布 9. 中 抽样 生成 文档 a 的 第 7 个 词 的 主题 x.。 

CA) 从 8 中 抽样 产生 主题 xsv 的 单词 分 布 %-，， 。 

(5) 从 主题 ,的 单词 分 布 %- 中 抽样 产生 单词 wsv。 

按照 上 述 步骤 ,就 能 够 基于 LDA 或 ATM 模型 生成 一 篇 文档 。 这 两 个 模型 在 角色 挖掘 
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问题 中 的 应 用 是 较为 直接 的 。 可 以 将 访问 控制 日 志 看 作 包 括 了 多 个 文档 的 语料库 ,而 日 志 
中 用 户 u 的 权限 使 用 记录 就 是 语料库 中 的 文档 wx; 将 访问 控制 日 志 中 的 权限 p 看 作 单 词 p， 
则 用 户 u 对 权限 p 的 使 用 次 数 n 就 可 以 看 作文 档 w 中 单词 p 的 词 频 z; 将 角色 -~ 看 作 主 题 
~, 则 角色 挖掘 就 转化 为 主题 挖掘 。 更 进一步 ,ATM 将 文档 的 作者 扩展 到 LDA 模型 中 , 考 
虑 不 同 作者 对 于 文档 的 主题 选择 具有 不 同 的 概率 分 布 ,将 访问 控制 系统 中 用 户 的 属性 看 作 
文档 的 作者 后 ,可 以 利用 ATM 模型 在 角色 挖掘 中 更 为 精确 地 根据 用 户 属性 来 分 配角 色 。 

3) 概率 分 布 离散 化 方法 

LDA 模型 的 输出 为 个 角色 (主题 )、 用 户 ( 文 档 ) 到 角色 (主题 ) 的 映射 9 以 及 角色 ( 主 
题 ) 到 权限 (单词 ) 的 映射 %。 即 ,用户 u 属于 角色 的 概率 分 布 为 9, 角色 包含 单个 权限 的 
概率 分 布 为 $4,。 而 对 于 角色 挖掘 来 说 ,需要 离散 化 这 些 概 率 分 布 , 以 获得 角色 到 用 户 、 权 限 
到 角色 的 二 进 制 赋 值 。 

通常 可 以 采用 top-k 的 方式 对 概率 分 布 进行 离散 化 。 先 将 0, 中 的 概率 值 按照 降序 排 
列 , 可 以 观察 到 一 些 急 剧 下 降 的 点 ,然后 将 前 & 个 概率 值 对 应 的 角色 赋予 用 户 w, 剩 下 的 角 
色 将 被 忽略 。 类 似 地 ,可 以 选择 $, 中 的 前 m 个 概率 值 对 应 的 权限 赋予 角色 x。k 和 m 的 选 
择 也 可 以 采用 前 述 X 距离 的 定义 , 即 选 取 恰当 的 & 入 ,使 得 4 距离 最 小 。 

4) 生成 式 角色 挖掘 的 优点 

与 早期 的 角色 挖掘 技术 相 比 ,生成 式 角 色 挖 掘 技术 更 关注 权限 使 用 模式 ,其 优点 如 下 : 

(1) 可 用 性 更 强 , 角 色 是 可 解释 的 。 早 期 的 角色 挖掘 工作 是 将 用 户 及 其 授权 集合 分 解 
为 角色 到 用 户 的 分 配 集合 和 权限 到 角色 的 分 配 集合 。 其 主要 问题 是 可 用 性 问题 ,也 就 是 得 
到 的 角色 仅仅 是 一 些 不 相关 的 权限 的 组 合 , 缺 乏 对 这 些 组 合 的 合理 性 的 解释 。 而 生成 式 角 
色 挖 掘 是 对 权限 使 用 模式 的 分 析 , 其 挖掘 结果 能 够 反映 权限 的 内 在 联系 ,所 以 在 可 用 性 和 解 
释 性 上 具有 较 大 优势 。 

(2) 更 准确 。 生 成 式 角 色 挖 掘 方法 能 够 对 一 些 拥有 相同 权限 集合 , 却 有 不 同 使 用 模式 
的 用 户 群 体 进一步 准确 划分 。 例 如 ,一 个 安全 管理 员 和 一 个 后 备 的 安全 管理 员 虽 然 权 限 相 
同 , 但 是 使 用 模式 存在 较 大 差异 ,因此 ,更 准确 的 角色 管理 方式 是 创建 两 个 角色 。 

(3) 生成 角色 模型 的 用 途 广泛 。 可 以 用 于 已 有 权限 分 配 信息 中 的 错误 发 现 和 标识 , 例 
如 ,发 现 那些 从 未 被 用 户 使 用 过 的 权限 ;也 可 以 用 于 权限 使 用 过 程 中 的 异常 检测 ,例如 ,发 现 
不 符合 权限 使 用 模式 的 用 户 访问 行为 。 


2.2.2 风险 自 适应 的 访问 控制 技术 


从 风险 管理 的 角度 看 ,访问 控制 其 实 就 是 一 种 平衡 风险 和 收益 的 机 制 。 传 统 访问 控制 
技术 是 严格 按照 预先 定义 的 静态 策略 执行 的 ,将 满足 策略 约束 条 件 的 访问 行为 所 带 来 的 风 
险 视 为 系统 可 接受 的 风险 。 它 将 这 种 风险 与 收益 的 平衡 静态 地 定义 在 访问 控制 策略 中 , 因 
此 , 较 适合 访问 风险 十 分 明确 的 场景 。 而 大 数据 的 一 个 显著 特点 是 先 有 数据 、 后 有 应 用 。 人 
们 在 采集 和 存储 数据 时 ,往往 无 法 预先 知道 所 有 的 数据 应 用 场景 ,因此 ,安全 管理 员 也 往往 
无 法 获知 访问 行为 带 来 的 风险 和 收益 的 关系 ,进而 难以 预先 定义 恰当 的 访问 控制 策略 。 为 
了 解决 这 种 严格 执行 静态 策略 的 访问 控制 技术 存在 的 问题 ,将 访问 控制 中 隐 含 的 风险 概念 
明确 化 ,提出 了 风险 自 适应 的 访问 控制 技术 ,也 就 是 根据 访问 行为 带 来 的 风险 ,动态 地 赋予 
访问 权限 。 它 与 传统 访问 控制 技术 最 大 的 区 别 在 于 ,其 风险 和 收益 的 权衡 是 在 访问 过 程 中 
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动态 实施 的 ,而 不 是 预先 由 管理 员 分 析 获 得 并 隐 含 在 静态 访问 控制 策略 中 的 。 下 面 从 风险 
量化 和 访问 控制 实施 方案 两 个 方面 介绍 风险 自 适应 的 访问 控制 技术 。 

l. 风险 量化 

风险 量化 是 通过 计算 以 数值 的 形式 评估 访问 行为 对 系统 造成 的 风险 , 它 是 基于 风险 来 
实施 访问 控制 的 前 提 。 下 面 从 风险 要 素 选择 和 风险 计算 方法 两 个 方面 进行 论述 。 

1) 风险 要 素 选择 

风险 量化 的 第 一 步 是 确定 影响 风险 值 的 要 素 集 合 。 比 较 常 见 的 风险 要 素 包 括 主客 体 的 
安全 级 别 .范畴 、 被 访问 客体 的 数量 .客体 之 间 的 互 斥 关系 5 以 及 访问 目的 与 被 访问 客体 
的 相关 性 Co'29 。 

客体 敏感 程度 是 企业 或 组 织 对 客体 重要 性 的 评估 结果 。 敏 感 程度 越 高 的 客体 ,其 重要 
性 越 高 ,所 以 访问 它们 所 带 来 的 风险 就 越 大 。 通 常情 况 下 ,企业 或 组 织 在 实施 信息 安全 建设 
时 都 会 对 客体 的 重要 性 进行 评估 。 例 如 ,在 实施 了 强制 访问 控制 模型 的 系统 中 ,客体 会 被 赋 
予 敏 感 标记 ,这 种 敏感 标记 实际 上 就 是 客体 重要 性 的 体现 。 

被 访问 客体 的 数量 是 指 主体 在 一 次 访问 请 求 中 或 一 段 时 间 内 所 访问 的 客体 的 规模 。 由 
于 对 客体 的 访问 行为 所 带 来 的 风险 会 被 累加 ,所 以 被 访问 客体 的 数量 越 大 ,累加 的 风险 也 
越 大 。 

客体 之 间 的 互 斥 关系 是 指 两 个 客体 存在 如 下 关系 : 对 其 中 一 个 客体 访问 后 将 不 能 访问 
另 一 客体 ,或 者 在 访问 另 一 客体 时 风险 会 急剧 增加 。 互 斥 关系 描述 了 多 次 访问 行为 的 风险 
累加 是 非 线 性 的 。 

访问 主体 的 安全 级 别 是 实施 了 强制 访问 控制 的 系统 中 对 主体 访问 敏感 客体 时 所 能 达到 
的 安全 性 的 评估 。 高 安全 级 别 的 主体 在 访问 低 安全 级 别 或 同安 全 级 别 的 客体 时 ,通常 认为 
是 没有 风险 的 ,或 风险 是 可 以 接受 的 ;而 低 安全 级 别 的 主体 访问 高 安全 级 别 的 客体 时 ,通常 
认为 这 种 风险 不 可 接受 。 这 也 符合 BLP 模型 所 定义 的 策略 。 

访问 目的 与 被 访问 客体 的 相关 性 体现 了 在 业务 流程 中 主体 对 客体 的 需求 程度 。 两 者 的 
相关 性 越 高 , 则 主体 访问 客体 的 风险 越 小 ,同时 能 够 获取 的 收益 也 越 高 。 因 此 , 它 也 是 重要 
的 风险 要 素 之 一 。 

2) 风险 计算 方法 

在 确定 了 风险 要 素 后 ,需要 进一步 根据 这 些 要 素来 为 访问 行为 计算 出 量化 的 风险 值 。 
目前 主流 的 计算 方法 分 为 基于 概率 论 或 模糊 理论 的 静态 方式 "** 中 以 及 基于 协同 过 滤 的 动 
态 方式 C%'20 两 类 。 

CD 静态 方式 。 在 一 些 信息 系统 中 ,部 分 风险 要 素 是 已 经 被 衡量 评估 过 的 。 例 如 ,在 强 
制 访问 控制 系统 中 ,客体 敏感 程度 和 主体 安全 等 级 已 经 体现 为 主客 体 的 安全 标记 了 。 因 此 ， 
一 种 较为 常见 的 风险 量化 方法 是 对 这 些 风险 要 素 的 评估 结果 进行 量化 处 理 和 计算 以 得 到 量 
化 的 风险 值 。 由 于 计算 中 所 采用 的 风险 要 素 的 评估 结果 相对 固定 ,所 以 可 以 被 看 作 静 态 的 
计算 方式 。 

其 核心 思想 是 ,风险 量化 值 由 危害 发 生 的 可 能 性 和 危害 程度 决定 29 , 即 

风险 量化 值 = 危害 发 生 的 可 能 性 x 危害 的 值 

其 中 ,危害 发 生 的 可 能 性 是 指引 发 该 危害 的 事件 发 生 的 可 能 性 。 在 访问 控制 系统 中 ,这 些 事 
件 主 要 指 用 户 通过 访问 行为 获取 信息 资源 后 对 信息 资源 的 误 用 、 滥 用 其 至 泄露 。 而 危害 的 
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动态 实施 的 ,而 不 是 预先 由 管理 员 分 析 获 得 并 隐 含 在 静态 访问 控制 策略 中 的 。 下 面 从 风险 
量化 和 访问 控制 实施 方案 两 个 方面 介绍 风险 自 适应 的 访问 控制 技术 。 

l. 风险 量化 

风险 量化 是 通过 计算 以 数值 的 形式 评估 访问 行为 对 系统 造成 的 风险 , 它 是 基于 风险 来 
实施 访问 控制 的 前 提 。 下 面 从 风险 要 素 选择 和 风险 计算 方法 两 个 方面 进行 论述 。 

1) 风险 要 素 选择 

风险 量化 的 第 一 步 是 确定 影响 风险 值 的 要 素 集 合 。 比 较 常 见 的 风险 要 素 包 括 主客 体 的 
安全 级 别 .范畴 、 被 访问 客体 的 数量 .客体 之 间 的 互 斥 关系 5 以 及 访问 目的 与 被 访问 客体 
的 相关 性 Co'29 。 

客体 敏感 程度 是 企业 或 组 织 对 客体 重要 性 的 评估 结果 。 敏 感 程度 越 高 的 客体 ,其 重要 
性 越 高 ,所 以 访问 它们 所 带 来 的 风险 就 越 大 。 通 常情 况 下 ,企业 或 组 织 在 实施 信息 安全 建设 
时 都 会 对 客体 的 重要 性 进行 评估 。 例 如 ,在 实施 了 强制 访问 控制 模型 的 系统 中 ,客体 会 被 赋 
予 敏 感 标记 ,这 种 敏感 标记 实际 上 就 是 客体 重要 性 的 体现 。 

被 访问 客体 的 数量 是 指 主体 在 一 次 访问 请 求 中 或 一 段 时 间 内 所 访问 的 客体 的 规模 。 由 
于 对 客体 的 访问 行为 所 带 来 的 风险 会 被 累加 ,所 以 被 访问 客体 的 数量 越 大 ,累加 的 风险 也 
越 大 。 

客体 之 间 的 互 斥 关系 是 指 两 个 客体 存在 如 下 关系 : 对 其 中 一 个 客体 访问 后 将 不 能 访问 
另 一 客体 ,或 者 在 访问 另 一 客体 时 风险 会 急剧 增加 。 互 斥 关系 描述 了 多 次 访问 行为 的 风险 
累加 是 非 线 性 的 。 

访问 主体 的 安全 级 别 是 实施 了 强制 访问 控制 的 系统 中 对 主体 访问 敏感 客体 时 所 能 达到 
的 安全 性 的 评估 。 高 安全 级 别 的 主体 在 访问 低 安全 级 别 或 同安 全 级 别 的 客体 时 ,通常 认为 
是 没有 风险 的 ,或 风险 是 可 以 接受 的 ;而 低 安全 级 别 的 主体 访问 高 安全 级 别 的 客体 时 ,通常 
认为 这 种 风险 不 可 接受 。 这 也 符合 BLP 模型 所 定义 的 策略 。 

访问 目的 与 被 访问 客体 的 相关 性 体现 了 在 业务 流程 中 主体 对 客体 的 需求 程度 。 两 者 的 
相关 性 越 高 , 则 主体 访问 客体 的 风险 越 小 ,同时 能 够 获取 的 收益 也 越 高 。 因 此 , 它 也 是 重要 
的 风险 要 素 之 一 。 

2) 风险 计算 方法 

在 确定 了 风险 要 素 后 ,需要 进一步 根据 这 些 要 素来 为 访问 行为 计算 出 量化 的 风险 值 。 
目前 主流 的 计算 方法 分 为 基于 概率 论 或 模糊 理论 的 静态 方式 "** 中 以 及 基于 协同 过 滤 的 动 
态 方式 C%'20 两 类 。 

CD 静态 方式 。 在 一 些 信息 系统 中 ,部 分 风险 要 素 是 已 经 被 衡量 评估 过 的 。 例 如 ,在 强 
制 访问 控制 系统 中 ,客体 敏感 程度 和 主体 安全 等 级 已 经 体现 为 主客 体 的 安全 标记 了 。 因 此 ， 
一 种 较为 常见 的 风险 量化 方法 是 对 这 些 风险 要 素 的 评估 结果 进行 量化 处 理 和 计算 以 得 到 量 
化 的 风险 值 。 由 于 计算 中 所 采用 的 风险 要 素 的 评估 结果 相对 固定 ,所 以 可 以 被 看 作 静 态 的 
计算 方式 。 

其 核心 思想 是 ,风险 量化 值 由 危害 发 生 的 可 能 性 和 危害 程度 决定 29 , 即 

风险 量化 值 = 危害 发 生 的 可 能 性 x 危害 的 值 

其 中 ,危害 发 生 的 可 能 性 是 指引 发 该 危害 的 事件 发 生 的 可 能 性 。 在 访问 控制 系统 中 ,这 些 事 
件 主 要 指 用 户 通过 访问 行为 获取 信息 资源 后 对 信息 资源 的 误 用 、 滥 用 其 至 泄露 。 而 危害 的 
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值 是 一 个 对 危害 程度 的 量化 度量 ,往往 取决 于 信息 资源 的 价值 。 信 息 资 源 价 值 的 评估 通常 
比较 复杂 ,只 能 由 企业 或 组 织 根据 业务 背景 自行 实施 。 因 此 ,风险 量化 方法 的 主要 任务 是 对 
危害 发 生 的 可 能 性 进行 量化 计算 。 

对 事件 发 生 可 能 性 的 量化 计算 最 常见 的 方式 是 采用 概率 论 。 下 面 给 出 一 个 基于 概率 论 
的 风险 量化 方法 示例 。 

在 传统 的 强制 访问 控制 模型 BLP 中 ,其 简单 安全 属性 为 “主体 S 可 以 读 客体 O, HA 
当 Labels dom Labelo, 且 S 对 O 有 自主 型 读 访问 权限 ”。 从 风险 的 角度 看 ,对 于 简单 安全 属 
性 来 说 , 当 Labels dom Labelo 时 ,危害 发 生 的 可 能 性 就 是 0, 其 他 情况 下 危害 发 生 的 可 能 性 
为 1。 很 显然 ,这 种 简单 的 量化 方式 难以 准确 描述 风险 。 采 用 概率 论 对 危害 发 生 可 能 性 的 
量化 计算 方法 如 下 : 危害 发 生 的 可 能 性 已 被 分 为 主动 可 能 性 P， 和 被 动 可 能 性 Po 两 部 分 ， 
根据 风险 要 素 的 评估 值 分 别 计算 Pa 和 Po ,再 设置 权重 ,对 两 者 进行 合并 计算 得 到 P. 

首先 计算 Pi. Pi 是 一 个 主体 由 于 受到 诱惑 而 主动 地 泄露 信息 的 可 能 性 。 主 体 受 到 的 
诱惑 越 大 , 则 主动 泄露 信息 的 可 能 性 就 越 大 。 由 于 P. 来 源 于 主体 受到 的 诱惑 ,所 以 采用 函 
数 TI 对 这 种 诱惑 进行 描述 。TI 是 关于 主体 安全 级 别 Ls 和 客体 敏感 级 别 Lo 的 函数 : 

TI(Ls,Lo) = a *s to! /(m — Lo) 

其 中 ,a 是 比 1 大 的 实数 ,m 是 比 Lo 的 最 大 值 大 的 实数 。TI 函数 也 可 以 是 其 他 形式 ,但 是 
必须 具备 如 下 性 质 : 四 随 着 客体 敏感 级 别 Lo 的 提高 或 主体 安全 级 别 Ls 的 降低 ,诱惑 TI 会 
增 大 ;@ 诱 惑 TI 是 大 于 0 的 ;@ 诱 惑 TI 倾向 于 更 敏感 的 客体 ;@ 客 体 敏 感 级 别 Lo 越 高 ,TI 
随 着 主体 安全 级 别 Ls 的 降低 而 增加 的 速率 越 快 ;加 主客 体 安 全 级 别 之 差 Ls 一 Lo 恒定 时 ， 
TI 应 随 着 Lo 的 增加 而 增加 。 

进一步 ,Pi 的 取 值 为 [0,1], 且 随 着 诱惑 TI 的 增加 而 增加 ,因此 采用 sigmoid 函数 进行 
计算 : 





P, = 1/0 + expC C— k) X CTI — mid))) 
其 中 ,mid 是 P, 为 0.5 时 的 TI fü. Jy P, 函数 曲线 的 斜率 。 

其 次 计算 Pao Po 是 主体 由 于 玻 忽而 被 动 地 泄露 信息 的 可 能 性 。 在 强制 访问 控制 模型 
中 ,采用 风险 要 素 安 全 标记 中 的 范畴 对 其 进行 描述 。 主 体 的 范畴 表达 了 主体 对 于 范畴 中 客 
体 的 需求 ,而 客体 的 范畴 表达 了 客体 与 范畴 的 相关 性 。 通 常情 况 下 ,主体 对 客体 的 需求 越 强 
烈 , 则 系统 对 该 主体 泄露 该 客体 信息 的 可 能 性 的 容忍 程度 越 高 ,也 就 是 认为 该 访问 行为 所 带 
来 的 风险 越 小 。 因 此 ,类 似 于 TI 函数 ,可 以 构建 一 个 关于 主客 体 范 畴 c 的 容忍 度 函 数 EI: 

EL(S,.0,) = b 9» 5 / Gm, — Sm) 
由 于 主客 体 范畴 是 集合 形式 ,所 以 上 式 利 用 了 模糊 集合 论 进行 了 计算 。 针 对 范畴 c, 为 每 个 
主体 赋予 一 个 隶属 关系 , 即 该 主体 对 范畴 c 中 客体 的 需求 程度 ;再 为 每 个 客体 赋予 一 个 隶属 
关系 , 即 该 客体 与 范畴 c 的 相关 性 。 式 中 S, AMO, 则 分 别 为 主体 S 和 客体 O 的 隶属 关系 ， 
7amsx 为 最 大 的 范畴 隶属 关系 , 且 参 数 0 大 于 1。 类 似 地 ,由 于 容忍 度 的 取 值 范围 为 [0,1], 因 
此 需要 采用 sigmoid 函数 进行 处 理 : 
E, = 1/0 + expC — k’) X (EL — mid’))) 

其 中 ,E. 为 系统 对 范畴 c 下 主体 对 客体 访问 行为 可 能 引起 的 不 经 意 的 信息 泄露 的 容忍 度 ,& 
为 sigmoid 函数 的 斜率 ,mid H E. 取 0.5 时 的 EL 值 。 那 么 在 范畴 c 下 ,主体 对 客体 访问 后 
不 经 意 泄露 信息 的 可 能 性 P.—1— E. ,而 概率 P 则 为 P. 的 最 大 值 , 即 
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P, = Maximum(P, | c € Category} 

最 后 计算 P。 对 P, Ps 可 以 采用 下 式 进行 组 合计 算得 到 P. 

P = P, +P, — P,P, 

在 对 风险 进行 量化 时 ,许多 风险 因素 都 对 其 有 贡献 。P, 的 计算 利用 了 风险 要 素 “ 主 客 
体 的 安全 级 别 ”,P, 的 计算 利用 了 风险 要 素 “ 主 客体 的 范畴 ”。 在 计算 已 时 ,也 可 以 根据 这 
些 风险 要 素 对 风险 的 贡献 大 小 来 调整 其 权重 。 

在 进行 上 述 风险 计算 时 ,简单 地 采用 了 模糊 集合 论 来 处 理 风 险要 素 “ 主 客体 的 范畴 ”。 
FEDS ,模糊 集合 论 也 可 以 用 于 风险 要 素 “ 主 客体 的 安全 级 别 ” 的 量化 处 理 ,以 使 风险 的 计算 更 
加 平滑 59 。 下 面 给 出 一 些 基本 定义 。 

ibl X 上 的 模糊 集合 A 定义 为 A={(Cz,A(Cz))|zEX}。 其 中 A(z) 被 称 为 隶属 函数 ， 
它 满足 A: X—M.M 为 隶属 空间 。 

隶属 函数 ACz) 用 于 刻画 元 素 x 对 模糊 集合 A 的 隶属 程度 一 一 隶属 度 。A 中 的 每 个 元 
素 由 x 和 它 的 隶属 度 组 成 , 即 A(zx,A(z))。A(z) 的 值 越 大 ,x 对 模糊 集合 A 的 隶属 度 
越 高 。 

具体 地 , 若 在 某 个 强制 访问 控制 系统 中 ,安全 标记 非 密 ,秘密 .机密 ,绝密 的 分 数 分 别 为 
500 一 600 .601 一 750.751 一 900.901 一 1000, 那 么 两 个 客体 A 和 B 的 敏感 度 分 别 为 600 和 
601 ,在 分 数 上 只 相差 1, 但 是 安全 级 别 却 相差 一 级 。 在 直接 进行 风险 量化 时 ,就 可 能 造成 A 
和 B. 的 访问 风险 值 相差 很 大 ,这 是 不 符合 系统 中 它们 的 实际 安全 评估 分 值 的 。 而 引入 隶属 
度数 ,可 以 使 得 A 对 非 密 集合 的 隶属 度 较 低 ,B 对 秘密 集合 的 隶属 度 也 较 低 , 从 而 使 A 和 B 
的 风险 计算 具有 连贯 性 ,而 不 是 跨越 两 个 安全 级 别 进行 计算 。 

总 之 ,这 种 静态 风险 量化 方法 能 够 充分 利用 系统 已 有 的 安全 性 评估 价值 评估 等 评估 结 
果 , 实 施 也 较为 简单 。 但 是 它 也 存在 主观 性 较 强 .不够 灵活 等 缺点 。 主 观 性 强 表现 在 两 个 方 
面 : 一 方面 ,风险 要 素 的 初始 评估 值 往往 来 自主 观 评 ; 另 一 方面 ,风险 的 计算 公式 也 是 根据 
经 验 设 定 的 。 不 够 灵活 则 是 指 风险 量化 方法 所 采用 的 风险 要 素 的 评估 值 是 静态 的 ,例如 主 
客体 安全 级 别 的 变更 必须 由 安全 管理 员 实 施 , 因 此 风险 量化 结果 也 难以 实时 地 随 系统 环境 
的 改变 而 变化 。 此 外 ,对 于 访问 目的 与 被 访问 客体 的 相关 性 等 风险 要 素来 说 , 较 难 由 安全 管 
理 员 预 先进 行 主观 评估 ,所 以 也 不 适合 使 用 这 种 静态 的 风险 量化 方法 。 

(2) 动态 方式 。 为 了 解决 静态 计算 方式 存在 的 问题 ,可 以 采用 基于 协同 过 滤 的 动态 风 
险 量化 方法 所 20 。 这 类 量化 方法 的 基本 思想 是 : 利用 系统 中 用 户 的 历史 访问 行为 来 构建 正 
常用 户 的 访问 行为 画像 ,并 以 此 为 风险 量化 的 基准 ,然后 计算 每 次 用 户 访问 行为 与 该 基准 的 
偏离 程度 作为 风险 量化 值 。 即 访问 行为 偏离 基准 越 大 , 则 该 访问 产生 的 风险 越 大 。 

下 面 以 一 个 医疗 信息 系统 中 医生 访问 病人 数据 的 风险 量化 为 例 ,对 这 种 基于 协同 过 滤 
的 动态 风险 量化 方法 进行 介绍 。 

首先 将 医疗 信息 系统 的 医生 分 为 诚实 医生 和 好 奇 医生 两 类 。 诚 实 医生 只 访问 正常 治疗 
过 程 所 必需 的 病人 数据 ;好 奇 医生 除了 访问 必需 的 病人 数据 外 ,还 会 由 于 好 奇 访问 一 些 额 外 
的 病人 隐私 数据 。 

不 论 是 诚实 医生 还 是 好 奇 医生 ,访问 病人 数据 时 都 需要 先 确定 访问 目的 ,并 在 该 目的 下 
对 病人 数据 进行 访问 。 例 如 ,医生 选择 “眼病 ”作为 访问 目的 ,然后 基于 该 目的 查看 病人 的 
数据 。 
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下 面 采用 信息 论 中 焙 的 概念 来 描述 医生 在 目的 上 下 的 访问 行为 ,并 进行 风险 的 量化 计 
算 , 具 体 分 为 两 步 : 

(D 风险 基准 的 计算 。 令 所 有 病人 数据 集合 为 D, 所 有 医生 在 目的 + 下 访问 病人 数据 xz 
WBN fan (a) ,那么 所 有 医生 在 目的 + 下 访问 数据 xz 的 概率 为 


Pala | t) = Sad | D fab 
bED 


所 有 医生 在 目的 + 下 访问 xz 的 不 确定 性 可 以 用 炉 及 (t,x) 来 表示 , 它 就 是 进行 风险 量化 计 
算 的 基准 值 : 
Halta) =— X Pula | Dln PaG | D 


z€D 
@ 风险 的 计算 。 类 似 于 基准 值 的 计算 ,医生 u 在 目的 上 下 访问 数据 z 的 概率 P, (x1z) 
VAR HG a) TDAP a AST ， 
P(x | = f.G«D/ X fias 


b€D 


H, (t,x) =— XP, (a | InP, (a | 2) 


ED 


在 此 基础 上 ,采用 单个 医生 访问 行为 的 炉 与 所 有 医生 访问 行为 的 炉 的 差 值 作为 目标 z 

下 的 访问 行为 的 风险 量化 计算 结果 , 即 
R(u,t) = max{H,(t,x) — Hu(t,x),0} 

在 上 述 方法 中 ,所 有 医生 的 访问 行为 反映 了 真实 的 访问 目的 与 被 访问 客体 的 相关 性 ,而 
好 奇 医生 会 额外 地 访问 一 些 无 关 的 客体 ,所 以 其 访问 行为 的 炉 会 大 于 风险 基准 值 ,从 而 使 风 
险 大 于 0。 并 且 好 奇 医 生 和 额外 访问 的 无 关 客 体 越 多 ,计算 得 出 的 风险 值 也 越 大 。 因 此 ,该 方 
法 能 够 有 效 地 根据 访问 目的 与 被 访问 客体 的 相关 性 实现 风险 值 的 动态 计算 。 

这 类 动态 风险 量化 方法 的 特点 是 通过 行为 异常 的 概率 来 衡量 风险 值 , 所 以 其 风险 量化 
结果 可 以 随 着 系统 中 整体 用 户 的 行为 变化 而 动态 变化 , 比 静态 计算 方法 更 灵活 ,但 是 这 种 计 
算 往 往 需要 大 量 的 系统 历史 数据 以 确保 风险 量化 的 准确 性 。 

2. 访问 控制 实施 方案 

在 对 访问 行为 的 风险 进行 量化 后 ,还 需要 进一步 利用 这 些 风险 值 设计 灵活 的 访问 控制 
实施 方案 。 下 面 从 判定 方法 .风险 与 收益 的 平衡 .实施 框架 3 个 方面 进行 论述 。 

1) 判定 方法 

风险 量化 的 结果 通常 为 一 个 数值 ,为 了 能 够 实施 访问 控制 ,就 必须 将 风险 量化 结果 映射 
为 “允许 /拒绝 ”的 二 值 判 定 。 即 ,需要 设计 一 个 判定 方法 来 完成 Z 一 {0,1} 的 转化 。 通 常 可 
以 采用 设 定 风险 阔 值 的 方式 来 实施 二 值 判定 , 即 判定 方 法 为 “超过 风险 阀 值 的 访问 行为 将 被 
拒绝 ,反之 则 被 允许 0”。 此 外 ,也 可 以 通过 设置 风险 配额 的 方式 实现 二 值 判定 2 。 类 似 
于 金融 领域 的 信用 卡 机 制 , 可 以 为 系统 中 的 每 个 用 户 分 配 一 定 的 “信用 额度 ”一 一 风险 配额 ， 
用 户 每 次 访问 都 会 从 风险 配额 中 扣 减 该 次 访问 的 风险 量化 值 ,相当 于 用 风险 配额 来 支付 该 
次 访问 的 风险 。 当 用 户 的 风险 配额 被 消耗 完 时 ,就 无 法 再 支付 新 的 访问 行为 所 带 来 的 风险 
了 。 因 此 ,其 判定 方法 就 是 “ 若 风 险 配 额 足够 支付 本 次 访问 的 风险 , 则 允许 访问 ,和 否则 拒绝 
访问 ”。 

更 进一步 ,除了 可 以 利用 风险 量化 结果 实施 “允许 /拒绝 ”二 值 判定 外 ,还 可 以 在 “允许 ” 
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和 “拒绝 ”之 间 引 入 “部 分 允许 ”的 概念 , 即 实现 “符合 部 分 访问 控制 条 件 的 请 求 将 获得 部 分 访 
问 权限 ”的 访问 控制 。 如 图 2-10 所 示 , 在 “允许 ”和 “拒绝 ”之 间 划 分 出 多 个 风险 带 (risk 
band)。 访 问 行 为 的 风险 量化 值 处 于 哪个 风险 带 , 就 按照 该 风险 带 的 位 置 给 访问 授予 相应 
的 “部 分 允许 ”的 权限 。 下 面 给 出 风险 带 判 定 方法 的 具体 设计 。 

CD 弹性 拒绝 访问 边界 。 一 个 用 于 分 隔 “ 人 允许 "和 ”部 分 允许 ?区域 的 风险 量化 值 。 访 问 
行为 的 风险 小 于 该 值 , 则 允许 访问 ,并 具有 全 部 访问 权限 。 

(2) 严格 拒绝 访问 边界 。 一 个 用 于 分 隔 “ 拒 绝 ” 和 “部 分 允许 ”区 域 的 风险 量化 值 。 访 问 
行为 的 风险 大 于 该 值 , 则 拒绝 访问 。 

(3) 风险 带 。 将 大 于 弹性 拒绝 访问 边界 且 小 于 严格 拒绝 访问 边界 的 风险 值 的 取 值 区 间 
划分 成 若干 子 区 间 , 各 子 区 间 邻 接 , 且 没有 重 倒 ,每 个 子 区 间 为 一 个 风险 带 。 每 个 风险 带 被 
赋予 部 分 访问 权限 。 若 访问 行为 的 风险 处 于 该 风险 带 中 , 则 会 被 授权 对 应 的 访问 权限 。 不 
同 风险 带 根据 取 值 区 间 的 不 同 , 被 赋予 的 部 分 权限 也 不 同 。 风 险 取 值 区 间 越 接近 严格 拒绝 
访问 边界 , 则 被 赋予 的 部 分 访问 权限 越 小 ;反之 , 则 被 赋予 的 部 分 访问 权限 越 大 ,但 不 能 超过 
允许 访问 的 全 部 访问 权限 。 采 用 风险 带 的 访问 控制 如 图 2-10 所 示 。 
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风险 小 
图 2-10 采用 风险 带 的 访问 控制 


相 比 于 “允许 /拒绝 ”的 二 值 判定 方法 ,由 于 风险 带 提 供 了 “部 分 允许 ”的 访问 控制 ,因此 
能 够 让 更 多 的 访问 请 求 在 风险 可 接受 的 情况 下 也 能 够 受 限 地 访问 数据 ,从 而 更 好 地 平衡 了 
系统 的 风险 与 收益 ,提高 了 业务 系统 的 可 用 性 。 

2) 风险 与 收益 的 平衡 

在 风险 被 量化 后 ,有 很 多 种 方法 可 以 利用 该 量化 值 来 影响 用 户 对 资源 访问 行为 ,从 而 实 
现 整 个 系统 风险 与 收益 平衡 。 其 中 ,较为 常见 的 有 两 种 : 信用 卡 式 和 市 场 交易 式 。 

(1) 信用 卡 式 。 它 为 每 个 用 户 分 配 风险 配额 .并 让 用 户 在 访问 资源 时 用 配额 支付 访问 
带 来 的 风险 。 当 配额 不 足以 支付 新 的 访问 风险 时 ,系统 将 阻止 用 户 的 访问 行为 。 而 分 配给 
用 户 的 风险 配额 的 多 少 可 以 定期 通过 投资 回报 率 (Return on Investment,ROI) 来 计算 。 也 
就 是 将 风险 看 作 一 种 投资 行为 ,系统 会 给 收益 较 高 的 用 户 分 配 更 多 的 风险 配额 ,以 优化 整个 
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系统 的 风险 和 收益 比值 。 

(2) 市 场 交易 式 。 它 将 风险 配额 视 为 市 场 上 的 商品 ,而 整个 系统 总 的 风险 配额 被 视 为 
可 以 交易 的 商品 总 量 。 当 用 户 发 现 有 些 资源 访问 行为 能 够 带 来 较 大 收益 时 ,他 们 会 从 市 场 
上 买 和 人 风险 配额 ,以 支付 他 们 的 资源 访问 行为 ,进而 赚 取 较 大 的 收益 ;而 当 用 户 没有 发 现 收 
益 较 好 的 资源 访问 机 会 时 ,可 以 将 他 们 持 有 的 风险 配额 在 市 场 中 出 售 ,获得 收益 。 在 这 种 市 
场 建立 起 来 后 ,作为 商品 的 风险 配额 流通 越 充分 , 则 越 能 够 实现 整体 系统 的 风险 与 收益 的 最 
优化 配置 。 

3) 实施 框架 

风险 访问 控制 是 可 以 独立 实施 的 , 即 不 需要 依赖 于 其 他 访问 控制 系统 而 独立 、 完 整地 存 
在 。 其 特点 在 于 它 对 访问 行为 的 约束 完全 取决 于 风险 与 收益 的 平衡 。 这 种 方式 能 够 使 访问 
控制 更 加 灵活 ,使 整个 系统 的 风险 与 收益 得 到 优化 配置 。 

然而 ,这 种 独立 实施 方式 在 应 用 场景 上 存在 一 些 局 限 性 。 从 风险 访问 控制 实施 的 各 个 
阶段 来 看 ,风险 要 素 的 选择 以 及 风险 的 量化 评估 方法 都 可 能 基于 一 些 主观 经 验 而 使 风险 量 
化 结果 存在 一 定 的 准确 性 问题 ,进而 影响 对 访问 行为 约束 的 正确 性 。 从 风险 访问 控制 的 目 
的 来 看 , 它 主要 用 于 确保 系统 整体 的 风险 在 容忍 范围 内 , 且 收 益 最 大 化 ,所 以 往往 未 对 单 次 
访问 行为 做 出 严格 的 约束 。 例 如 ,采用 信用 卡 式 的 风险 访问 控制 时 , 当 用 户 的 风险 配额 剩余 
较 多 时 ,就 可 能 进行 一 次 风险 较 大 的 访问 。 这 是 风险 访问 控制 所 允许 的 。 因 此 ,从 实施 阶段 
和 目的 来 看 ,风险 访问 控制 并 不 适合 对 访问 行为 进行 严格 约束 , 仅 能 用 于 平衡 风险 和 收益 。 

为 了 解决 该 问题 ,通常 可 以 采用 与 传统 访问 控制 策略 结合 的 实施 方式 ,将 风险 访问 控制 
作为 整个 系统 中 访问 控制 机 制 的 有 益 补 充 。 目 前 ,与 传统 访问 控制 策略 结合 的 风险 访问 控 
制 框架 有 两 种 : 修正 式 和 精 化 式 。 

修正 式 采 取 的 方式 是 : 先 利用 传统 访问 控制 策略 进行 初步 判定 ,然后 将 初始 判定 流程 
所 禁止 的 访问 请 求 通过 风险 访问 控制 流程 进一步 判定 。 若 风险 访问 控制 机 制 在 衡量 了 风险 
和 收益 后 ,认为 该 访问 可 以 接受 , 则 将 判定 结果 从 禁止 修正 为 允许 。 这 也 就 是 所 谓 的 break 
glass 方式 ,用 于 确保 紧急 情况 下 用 户 能 够 违反 传统 的 访问 控制 策略 来 访问 那些 必需 的 
Vid, 

与 修正 式 相 对 的 是 精 化 式 的 结合 方式 C9 , 它 没 有 违反 传统 访问 控制 策略 ,而 是 在 传统 
访问 控制 策略 基础 上 进一步 细 化 求 精 。 即 先进 行 粗 粒度 的 传统 访问 控制 判定 流程 ,在 该 流 
程 中 阻止 一 些 严格 禁止 的 访问 请 求 ,随后 通过 进一步 的 细 粒 度 的 风险 访问 控制 流程 将 前 一 
阶段 判定 流程 所 允许 的 部 分 访问 请 求 修改 为 禁止 ,从 而 实现 访问 控制 的 逐步 精 化 。 具 体 实 
施 方法 分 为 两 个 阶段 。 

访问 控制 阶段 1( 粗 粒度 .严格 ) : 进行 传统 的 基于 静态 规则 的 访问 控制 。 这 一 阶段 适合 
描述 和 实施 粗 粒度 的 或 需要 严格 遵守 的 访问 控制 规则 。 在 该 阶段 被 严格 禁止 的 访问 不 会 进 
入 下 一 阶段 。 

访问 控制 阶段 2( 细 粒度 宽松) : 实施 风险 访问 控制 来 平衡 风险 与 收益 。 这 一 阶段 适合 
描述 和 实施 更 细 粒 度 的 访问 控制 规则 。 能 够 量化 上 一 阶段 允许 的 访问 请 求 所 带 来 的 风险 ， 
并 做 出 进一步 判定 ,其 判定 结果 可 以 是 “允许 /拒绝 ”二 值 的 ,也 可 以 是 包括 “部 分 允许 ”的 模 
糊 式 的 。 

这 两 个 阶段 的 结合 方式 如 图 2-11 所 示 ,访问 请 求 先 由 基于 静态 规则 的 访问 控制 模块 进 
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行 判定 ,然后 再 由 基于 风险 的 访问 控制 模块 在 更 细 粒 度 上 进一步 判定 。 只 有 当 两 个 模块 的 
判定 结果 都 为 "允许 ?时 ,才能 让 该 访问 请 求 通过 。 
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图 2-11 精 化 式 访问 控制 实施 框架 


可 以 看 出 ,由 于 大 数据 场景 下 应 用 系统 、 用 户 的 复杂 性 以 及 数据 规模 的 急剧 增长 ,使 得 
安全 管理 员 进 行 细 粒 度 的 策略 设计 和 授权 是 非常 困难 的 ,同时 系统 仍 需要 一 些 严格 遵循 的 
访问 策略 的 约束 ,以 确保 系统 基本 的 安全 性 ,因此 传统 访问 控制 与 风险 访问 控制 的 结合 实施 
将 成 为 大 数据 访问 控制 的 一 种 趋势 。 


2.3 基于 密码 学 的 访问 控制 技术 


基于 密码 学 的 访问 控制 技术 的 安全 性 依赖 于 密 钥 的 安全 性 ,而 无 须 可 信 引 用 监控 机 的 
存在 ,因此 能 够 有 效 解决 大 数据 分 析 架 构 自 身 缺 乏 安全 性 考虑 的 问题 。 一 方面 ,由 于 大 数据 
分 布 式 处 理 架构 的 复杂 性 ,很 难 建立 可 信 引 用 监控 机 ; 另 一 方面 ,部 分 大 数据 场景 下 ,数据 处 
于 所 有 者 控制 范围 外 。 因 此 ,不 依赖 于 可 信 引 用 监控 机 的 基于 密码 学 的 访问 控制 研究 对 于 
大 数据 的 一 些 特定 场景 具有 重要 意义 。 根 据 采 用 的 密码 技术 的 不 同 ,访问 控制 技术 可 分 为 
两 类 : 基于 密 钥 管理 的 访问 控制 和 基于 属性 加 密 的 访问 控制 。 

基于 密 钥 管理 的 访问 控制 技术 是 通过 确保 数据 的 解密 密 钥 只 能 被 授权 用 户 持 有 来 实现 
对 数据 的 访问 控制 。 通 常情 况 下 ,这 可 以 采用 可 信和 的 密 钥 管理 服务 器 实现 , 即 通过 它 来 完成 
密 钥 的 生成 ,并 分 发 给 授权 用 户 。 然 而 ,与 可 信 引 用 监控 机 一 样 ,在 大 数据 环境 下 可 信和 的 密 
钥 管理 服务 器 也 很 难 实现 。 广 播 加 密 (broadcast encryption) 技 术 提 供 了 一 种 不 依赖 于 可 信 
密 钥 管 理 服务 器 的 访问 控制 解决 方案 。 

广播 加 密 技术 最 早 由 Fiat AC 提出 ,其 目的 是 在 一 组 目标 参与 方 间 安 全 地 建立 密 
钥 , 以 使 得 授权 的 参与 方才 能 获得 密 钥 来 解密 数据 ,未 授权 的 参与 方 无 法 获得 关于 密 钥 的 信 
息 ,甚至 多 个 未 授权 参与 方 合谋 也 无 法 获得 密 钥 来 解密 数据 。 与 数据 所 有 者 持 有 每 个 接收 
者 的 密 钥 ,并 分 别 用 接收 者 的 密 钥 来 加 密 数 据 的 技术 相 比 ,广播 加 密 技术 的 一 个 重要 特点 是 
减少 了 加 密 的 数据 总 量 以 及 每 个 参与 方 持 有 的 密 钥 信息 的 总 量 。 随 后 , Naor 等 人 59 于 
2001 年 对 该 方案 进行 了 改进 ,能 够 更 好 地 支持 未 授权 参与 方 数量 较 大 的 情况 。 该 广播 加 密 
方案 的 密 钥 和 密 文大 小 不 受 未 授权 参与 方 数 量 的 影响 ,是 参与 方 数量 的 对 数 级 别 。 由 于 这 
类 广播 加 密 技术 采用 了 对 称 加 密 体制 ,同时 也 减 小 了 加 密 时 的 密 钥 和 密 文 的 数据 总 量 , 所 以 
具有 较 高 的 执行 效率 。 然 而 这 些 技术 也 存在 一 个 缺点 : 广播 发 送 者 必须 持 有 所 有 数据 接收 
者 的 对 称 加 密 密 钥 ,所 以 只 有 很 少 一 部 分 可 信 的 参与 方 能 够 成 为 数据 发 送 者 。 因 此 ,这 种 技 
术 也 被 称 为 单 发 送 者 广播 加 密 。 
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为 了 能 够 支持 系统 中 任意 数量 的 用 户 作为 数据 发 送 者 针对 任意 接收 者 集合 加 密 和 共享 
数据 ,Dodis 和 Fazio 提出 了 公 钥 广播 加 密 技术 中] , 它 将 单 发 送 者 广播 加 密 技术 中 的 
Complete Subtree, Subset Difference’! , Layered Subset Difference 方法 扩展 到 公 钥 体制 
中 ,并 使 广播 加 密 方案 的 密 钥 和 密 文 数据 总 量 等 指标 接近 单 发 送 者 广播 加 密 方案 。Boneh 
等 人 [ 习 则 提出 了 基于 双 线 性 对 的 公 钥 广播 加 密 方案 , 它 使 得 密 钥 和 密 文 的 存储 开销 降低 到 
常量 级 ,同时 能 够 抵抗 合谋 攻击 。 随 后 ,Boneh 等 人 名 ' 吕 又 基于 伪 随 机 函数 和 多 线性 映射 
提出 了 新 的 公 钥 广播 加 密 方案 ,进一步 降低 了 广播 加 密 的 负载 。 

由 于 单 发 送 者 广播 加 密 技术 在 发 送 者 数量 上 的 限制 ,目前 多 用 户 间 数据 的 安全 共享 研 
究 主 要 采用 的 是 公 钥 广播 加 密 技术 。 由 Goh 等 人 中 提出 的 SIRIUS 是 基于 该 技术 的 一 个 
完整 的 安全 文件 存储 系统 , 它 能 够 在 现 有 的 文件 系统 上 实现 端 对 端的 安全 机 制 。SiRiUS 系 
统 中 的 每 个 文件 用 一 个 对 称 密 钥 加 密 , 再 用 广播 加 密 算 法 加 密 该 对 称 密 钥 ,确保 只 有 授权 用 
户 才能 解密 并 使 用 该 对 称 密 钥 ,以 确保 数据 共享 安全 。 

然而 不 论 是 采用 单 发 送 者 广播 加 密 还 是 公 钥 广播 加 密 技 术 ,数据 所 有 者 都 需要 持 有 所 
有 授权 用 户 的 对 称 加 密 密 钥 或 公 钥 才 能 够 实现 数据 的 安全 分 享 。 随 着 大 数据 场景 下 系统 规 
模 的 扩大 和 参与 用 户 的 增多 ,数据 所 有 者 较 难 预先 知道 所 有 潜在 的 授权 用 户 ,并 获得 他 们 的 
对 称 加 密 密 钥 或 公 钥 。 在 这 种 情况 下 , 另 一 种 密码 技术 一 一 ABE (Attribute-Based 
Encryption, 基 于 属性 加 密 或 属性 基 加 密 ) 提 供 了 实现 访问 控制 的 新 途径 。 它 能 够 实施 基于 
属性 的 访问 控制 ABAC 的 规则 , 却 不 需要 依赖 可 信 引 用 监控 机 来 实施 ABAC 策略 ,而 是 用 
密码 学 方式 限制 能 够 解密 数据 的 用 户 范 围 。 

ABE 是 在 2005 年 由 Sahai 和 Waters 首次 提出 的 , 它 将 属性 集合 作为 公 钥 进行 数据 加 
密 ,要 求 只 有 满足 该 属性 集合 的 用 户 才 能 解密 数据 5 ,即将 解密 数据 的 策略 用 属性 的 方式 
进行 描述 。 其 策略 描述 方式 为 门限 策略 ,也 就 是 用 户 能 够 满足 解密 需求 属性 的 属性 个 数 决 
定 了 是 否 能 够 解密 数据 。 随 后 ,Goyal 5$ AC? 和 Bethencourt 等 人 559 对 策略 的 描述 能 力 进 
行 了 扩展 ,使 其 支持 属性 的 布尔 表达 式 形式 。 并 且 Goyal 等 人 将 ABE 分 为 基于 密 钥 策略 的 
属性 加 密 (Key Policy Attribute-Based Encryption. KP-ABE, 也 称 密 钥 策略 ABE) 和 基于 密 
文 策略 的 属性 加 密 (Ciphertext Policy Attribute-Based Encryption,CP-ABE, 也 称 密 文 策略 
ABE)。 其 区 别 在 于 ,KP-ABE 将 密 钥 与 访问 控制 策略 关联 ,而 CP-ABE 将 密 文 与 访问 控制 
策略 关联 。 近 年 来 ,ABE 的 研究 工作 主要 是 对 访问 控制 策略 描述 灵活 性 的 进一步 增强 , 提 
高 方案 的 计算 效率 以 及 增加 方案 的 安全 性 6537 。 

在 ABE fy JE fll E. Yu AC? fI Hur 等 人 "9 分 别 基于 KP-ABE 和 CP-ABE 给 出 了 完 
整 的 访问 控制 方法 。 他 们 假定 存储 服务 器 是 “诚实 而 好 奇 ”的 , 即 服务 器 会 忠实 执行 用 户 发 
起 的 操作 ,但 是 却 可 能 泄露 数据 的 内 容 , 因 此 ,他 们 的 方案 在 数据 所 有 者 持 有 核心 机 密 的 前 
提 下 ,将 一 部 分 机 密 程 度 较 低 的 权限 管理 工作 (如 权限 撤销 等 ) 委 托 给 服务 器 执行 ,以 提高 整 
个 访问 控制 方案 的 效率 。 随 后 , Yang 等 人 中 提出 了 支持 多 属性 权威 机 构 的 基于 CP-ABE 
的 访问 控制 方案 ,以 解决 单 属 性 权威 在 分 布 式 环境 下 的 性 能 瓶颈 问题 。 针 对 采用 多 属性 权 
威 时 可 能 出 现 的 属性 权威 之 间 的 合谋 攻击 ,Jung 等 人 器 又 进一步 提出 了 一 种 能 够 容忍 至 
多 N 一 2CN 为 权威 总 数 ) 个 属性 权威 合谋 的 访问 控制 方案 ,提高 了 多 属性 权威 的 ABE 访问 
控制 系统 的 安全 性 。 与 此 同时 ,为 了 进一步 提高 效率 ,Green 等 人 "外 提出 了 可 外 包 解 密 的 
ABE 访问 控制 方案 , 它 能 够 在 不 降低 安全 性 的 前 提 下 ,将 用 户 的 大 部 分 解密 操作 转移 给 外 
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包 服 务 器 。 类 似 地 ,Zhou 等 人 5 提出 了 一 种 可 同时 外 包 加 密 和 解密 的 ABE 访问 控制 方 
案 。 该 方案 将 加 密 和 解密 过 程 都 分 为 两 部 分 ,一 部 分 由 数据 属 主 和 解密 用 户 在 计算 资源 受 
限 的 终端 执行 , 另 一 部 分 由 “诚实 而 好 奇 ”的 外 包 服 务 器 执行 ,从 而 减轻 了 终端 的 加 解密 计算 
负担 。 

下 面 对 基 于 密 钥 管理 和 基于 属性 加 密 的 访问 控制 技术 的 基本 原理 和 实现 方法 进行 介 
绍 ,主要 取材 于 文献 [25,27,31,39,40,43]。 


2.8.1 基于 密 钥 管理 的 访问 控制 技术 


基于 密 钥 管理 的 访问 控制 技术 是 通过 严格 的 密 钥 管理 来 确保 授权 用 户 才能 有 解密 数据 
所 需要 的 密 钥 来 实现 访问 控制 。 根 据 访问 控制 系统 所 支持 的 能 够 发 送 数 据 的 用 户 数量 ,可 
以 分 为 基于 单 发 送 者 广播 加 密 的 访问 控制 和 基于 公 钥 广播 加 密 的 访问 控制 。 前 者 仅 支持 少 
量 的 可 信和 的 数据 所 有 者 向 其 他 用 户 分 享 自己 的 数据 ,而 后 者 则 支持 系统 内 所 有 用 户 间 的 数 
据 分 享 。 

1. 基于 单 发 送 者 广播 加 密 的 访问 控制 

1) 参与 方 

参与 方 包括 数据 所 有 者 和 普通 用 户 。 

CD 数据 所 有 者 。 拥 有 数据 和 完整 的 用 户 密 钥 树 ,负责 根据 数据 分 享 的 目标 对 象 , 有 选 
择 地 从 用 户 密 钥 树 中 选取 加 密 密 钥 对 数据 进行 加 密 , 并 将 加 密 结果 通过 广播 发 送 给 所 有 
用 户 。 

(2) 普通 用 户 。 拥 有 用 户 密 钥 树 中 与 自己 相关 的 部 分 密 钥 ,负责 接收 数据 密 文 并 利用 
自己 持 有 的 密 钥 解密 数据 。 

2) 用 户 密 钥 树 

用 户 密 钥 树 中 的 所 有 密 钥 均 为 对 称 密 钥 。 系 统 中 的 每 个 用 户 有 一 个 自己 的 密 钥 ,该 密 
钥 将 作为 用 户 密 钥 树 的 叶子 节点 。 用 户 被 划分 为 多 个 分 层 的 用 户 子 集 ,每 个 子 集 代表 一 种 
接收 文件 的 用 户 组 合 。 每 个 子 集 都 对 应 一 个 密 钥 。 图 2-12 是 一 棵 用 户 密 钥 树 。 数 据 所 有 
者 应 该 持 有 整个 用 户 密 钥 树 ,而 普通 用 户 应 该 持 有 自己 的 密 钥 和 包含 自己 在 内 的 用 户 子 集 
所 对 应 的 密 钥 。 








Uy U, U; U, U, U; Us U; 
2-12 一 棵 用 户 密 钥 树 
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3) 加 密 与 访问 控制 

基于 单 发 送 者 广播 加 密 的 访问 控制 是 在 对 数据 加 密 的 同时 完成 授权 的 ,并 通过 能 否 解 
密实 现 访问 控制 。 也 就 是 说 ,数据 所 有 者 根据 授权 的 目标 用 户 情况 选择 恰当 的 密 钥 集 对 数 
据 进行 加 密 ,使 得 授权 的 普通 用 户 至 少 持 有 密 钥 集中 的 一 个 密 钥 来 解密 数据 ,而 未 授权 的 普 
通用 户 不 能 持 有 密 钥 集 中 的 任何 一 个 密 钥 。 在 图 2-12 中 ,如 果 选 择 深 色 节 点 处 的 密 钥 集 
{ko skio skio } 进行 数据 加 密 , 则 未 授权 的 普通 用 户 就 是 U; ,他 将 无 法 解密 数据 。 此 次 广播 加 
密 的 加 密 密 钥 为 3 个 ,加 密 所 产生 的 密 文 为 3 份 。 可 以 看 到 ,利用 广播 加 密 技术 进行 访问 控 
制 授权 时 ,能 够 使 密 钥 和 密 文 的 数据 量 大 为 减 小 ,从 而 提高 访问 控制 的 授权 效率 。 

2. 基于 公 铀 广播 加 密 的 访问 控制 

1) 参与 方 

参与 方 包括 公 钥 服务 器 、 数 据 所 有 者 .数据 服务 者 和 用 户 。 

CD 公 钥 服务 器 。 负 责 维护 一 个 采用 Complete Subtree, Subset Difference 或 Layered 
Subset Difference 方法 产生 的 密 钥 集合 。 即 将 系统 中 的 所 有 用 户 按照 上 述 3 种 方法 之 一 划 
分 为 子 集 ,每 个 子 集 代表 了 可 能 的 数据 接收 者 集合 。 为 每 个 子 集 产生 公私 钥 对 ,并 将 私 钥 安 
全 分 发 给 其 包含 的 用 户 。 

(2) 数据 所 有 者 。 负 责 将 数据 加 密 , 并 采用 基于 公 钥 广播 加 密 技术 对 加 密 密 钥 进行 分 
发 ,以 实现 对 授权 接收 者 的 限定 。 

(3) 数据 服务 者 。 负 责 加 密 数 据 的 存储 ,并 向 用 户 提 供 对 数据 的 操作 。 

(4) 用 户 。 即 数据 的 访问 者 。 只 有 被 数据 所 有 者 授权 的 用 户 才能 获得 数据 的 加 密 密 
钥 , 并 进一步 解密 出 数据 。 

2) 数据 文件 的 产生 和 加 密 存储 

访问 控制 系统 中 的 数据 文件 将 按照 下 述 步骤 加 密 存储 : 

CD 数据 所 有 者 为 新 产生 的 数据 文件 m 产生 非 对 称 密 钥 FSK (File Signing Key, X fF 


签名 密 钥 ) 用 于 对 文件 m 签名 , 对称 密 钥 FEK (File [manne ] 
Encryption Key, 文 件 加 密 密 钥 ) 用 于 对 文件 m 加 密 ; 

















(2) 数据 所 有 者 用 自己 的 主 加 密 密 钥 ( 非 对 称 )MEK MEK 加 密 
Anus FSK 私 钥 和 FEK, 产 生 密 钥 块 (Encrypted Key 文 伯 m 的 FEK 
Block) ,并 将 自己 的 ID 标识 在 密 钥 块 上 。 该 密 钥 块 是 针 bide a 











对 数据 所 有 者 的 ,其 内 容 如 图 2-13 所 示 。 图 2-13 数据 所 有 者 的 密 钥 块 内 容 
(3) 数据 所 有 者 对 密 钥 块 .FSK 公 钥 .时间 戳 .文件 名 
进行 Hash 运算 ,并 利用 自己 的 主 签名 密 钥 MSK( 非 对 称 ) 对 Hash 值 进行 签名 ,产生 数据 所 
有 者 签名 块 。 
(4) 数据 所 有 者 将 密 钥 块 .FSK 公 钥 时间 戳 .文件 名 数据 所 有 者 的 签名 块 合 并 形成 元 
数据 md-file, 如 图 2-14 所 示 。 





HOUR g - 7 "RES 
(数据 所 有 者 ) | “SK 公 钥 | mim 文件 名 | (数据 所 有 者 ) 


2-14. 元 数据 md-file 
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(5) 数据 所 有 者 用 FEK 加 密 文 件 m, 并 用 FSK 私 钥 对 文件 m 进行 签名 ,产生 加 密 后 的 
数据 文件 结构 d-file, 如 图 2-15 所 示 。 





FEK 加 密 FSK 私 钥 签名 
文件 m 文件 m 的 签名 











图 2-15 加 密 数 据 文件 d-file 


(6) 数据 所 有 者 将 md-file 和 d-file 一 起 发 送 给 数据 服务 者 进行 存储 。 

3) 授权 

假设 数据 所 有 者 要 将 加 密 后 的 文件 m 分 享 给 用 户 群 组 X, 则 可 以 通过 基于 公 钥 的 广播 
加 密 技 术 进行 访问 控制 授权 ,具体 步骤 如 下 : 

CD 数据 所 有 者 从 数据 服务 者 处 根据 文件 名 取 回 文件 m 对 应 的 md-file, 并 用 自己 的 
MSK 验证 md-file 的 数据 所 有 者 签名 块 。 

(2) 数据 所 有 者 从 公 钥 服务 器 获取 用 户 群 组 X 对 应 的 公 钥 集合 , 即 用 户 群 组 X 中 的 每 
个 用 户 至 少 拥有 该 公 钥 集合 中 的 一 个 公 钥 所 对 应 的 私 钥 。 数 据 所 有 者 用 公 钥 集合 中 的 每 个 
公 钥 对 数据 文件 的 FEK 进行 加 密 , 分 别 产 生 一 个 密 钥 块 ,并 将 公 钥 的 ID 标识 在 密 钥 块 上 ， 
如 图 2-16(a) 所 示 。 若 对 用 户 群 组 X 的 授权 还 包括 写 权 限 , 则 将 FSK 私 钥 和 FEK 一 起 加 密 
产生 密 钥 块 ,如 图 2-16(b) 所 示 。 在 这 种 情况 下 , 读 、 写 权限 分 别 用 FEK 和 FSK 私 钥 表示 ， 
这 样 就 实现 了 读 、 写 权限 的 分 离 , 即 拥有 FEK 的 用 户 能 够 读 该 数据 ,而 拥有 FSK 私 钥 的 用 
户 能 够 写 该 数据 。 数 据 所 有 者 将 新 产生 的 这 些 密 钥 块 都 添加 到 md-file 中 。 






























































公 钥 的 ID 公 钥 的 ID 
该 公 钥 加 密 该 公 钥 加 密 
文件 m 的 FEK 文件 m 的 FEK 
文件 m 的 FSK 私 钥 
(a) 授权 用 户 拥有 对 文件 m 的 读 权限 (b) 授权 用 户 拥 有 对 文件 m 的 读 写 权 限 


图 2-16 授权 用 户 的 密 钥 块 内 容 


G) 数据 所 有 者 更 新 md-file 中 的 时 间 惟 , 并 用 自己 的 MSK 重新 产生 数据 所 有 者 签名 
块 ,然后 将 新 的 md-file 发 送 给 数据 服务 者 进行 存储 。 新 的 md-file 如 图 2-17 所 示 。 


密 钥 块 密 钥 块 密 钥 块 e 
(数据 所 有 者 )| ( 公 钥 A) | Cmm) | … | ESK 公 钥 | P 





新 签名 块 
文件 名 | (数据 所 有 者 ) 





























图 2-17 授权 后 的 md-file 


4) 数据 文件 访问 

授权 用 户 A 可 以 按照 如 下 步骤 访问 数据 所 有 者 分 享 的 数据 文件 m 

CD 用 户 A 从 数据 服务 者 处 获得 文件 m 的 md-file. 并 从 公 钥 服务 器 获得 数据 所 有 者 的 
MSK 来 验证 md-file 的 签名 以 及 时 间 戳 。 
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(2) 用 户 A 根据 自己 持 有 的 公 钥 ID 来 查找 密 钥 块 , 并 用 该 公 钥 对 应 的 私 钥 进行 解密 ， 
以 获得 该 数据 对 应 的 FEK( 以 及 FSK 的 私 钥 )。 

(3) FAR A 从 数据 服务 者 处 获得 文件 m 的 d-file.JH FSK 公 钥 验证 签名 。 

(4) 用 户 A H FEK 解密 d-file 中 的 加 和 密 数 据 ,完成 数据 的 读 访 问 。 若 密 钥 块 中 包含 
FSK 私 钥 , 则 用 户 A 能 够 进一步 写 d-file 中 的 数据 内 容 , 再 重新 用 FEK 加 密 数 据 ,并 用 
FSK 私 钥 产 生 新 的 签名 。 最 后 ,用 户 A 将 更 新 后 的 d-file 提交 给 数据 服务 者 进行 存储 。 


2.3.2 基于 属性 加 密 的 访问 控制 技术 


在 基于 密 钥 管理 的 访问 控制 技术 中 ,系统 通过 控制 用 户 持 有 的 密 钥 集合 来 区 分 用 户 , 进 
而 实施 授权 和 访问 控制 。 因 此 ,数据 所 有 者 需要 预先 知道 系统 中 所 有 潜在 的 授权 用 户 ,并 获 
得 他 们 的 对 称 加 密 密 钥 或 公 钥 。 这 对 于 规模 较 大 且 用 户 较 多 的 大 数据 应 用 来 说 是 非常 不 便 
的 。 与 之 相 比 ,基于 属性 加 密 的 访问 控制 技术 通过 更 加 灵活 的 属性 管理 来 实现 访问 控制 , 即 
将 属性 集合 作为 公 钥 进行 数据 加 密 ,要 求 只 有 满足 该 属性 集合 的 用 户 才能 解密 数据 。 因 此 ， 
数据 所 有 者 可 以 不 必 预 先知 道 潜在 授权 用 户 的 身份 和 相关 的 密 钥 集 , 甚 至 在 某 些 场景 下 还 
能 够 保持 授权 用 户 身份 的 匿名 。 下 面 对 这 种 访问 控制 技术 进行 介绍 。 


1. 基本 定义 

定义 2-1( 访 问 结构 ,Access Structure) (P, ,P,,…,P,)} 是 一 个 参与 方 集 合 。 令 AC 
2/7) ,车 VB,C, 有 BEA, 且 BSCC, 那 么 CEA, 则 称 A 是 单调 的 。 若 A 是 单调 的 , 且 
是 非 空 的 , 即 ASO P PA N D), WER A 为 一 个 访问 结构 。A 中 的 元 素 被 称 为 授权 集 , 非 
A 中 的 元 素 被 称 为 未 授权 集 。 

访问 结构 59 主要 分 为 门限 结构 .属性 值 与 操作 结构 .访问 树 结构 .LSSS 和 矩阵 结构 等 。 
目前 ,在 访问 控制 中 应 用 较 多 的 是 访问 树 结构 , 它 可 以 看 作对 单 层 (1,n) 门 限 结构 的 扩展 , 支 
持 与 (AND) ,:& CORO FIG 200] BR 3 种 操作 。 其 中 (tm) 门限 是 指 秘密 信息 被 分 为 n 份 ,要 
重 构 秘 密 信息 就 必须 获得 其 中 至 少 t 份 。 而 AND 操作 可 以 看 作 (n,n) 门 限 ,OR 操作 可 以 
REA, mR. 

定义 2-2( 访 问 树 结构 ,Access Tree) T 为 一 个 访问 树 , 树 中 的 每 个 节点 被 记 为 工 ,该 节 
点 的 子 节点 数目 记 为 ,其 对 应 的 门限 值 记 为 k,。 每 个 叶子 节点 代表 一 个 属性 , 且 门 限 值 
二 1,n; 一 0。 而 非 叶子 节点 的 门限 值 和 子 节 点 数目 的 关系 则 可 用 来 表示 叶子 节点 所 代表 
的 属性 上 的 与 (AND) \ 或 (OR)、(t,n) 门 限 关系 , 即 E, =n. 表示 AND 操作 ,人 一 1 表示 OR 
操作 ,0 二 k, 二 n, 表示 (t,n) 门 限 。 

按照 上 述 定 义 ,一 个 CP-ABE 访问 结构 的 示意 图 如 图 2-18 所 示 。 它 表示 了 一 条 策略 
“Place 属性 为 Office. zX ID JJ Alice H. Place 4 Home 的 用 户 能 够 解密 数据 ”。 

2. 基于 CP-ABE 的 访问 控制 

1) CP-ABE 算法 概述 

通常 情况 ,CP-ABE 算法 包括 如 下 4 个 组 成 部 分 : 

COD Setup: 生成 主 密 钥 MK 和 公开 参数 PK. MK 由 算法 构建 者 掌握 ,不 允许 被 泄露 ， 
而 PK 被 发 送 给 系统 中 所 有 参与 者 。 

(2) CTr=Encrypt(PK, T.M): 使 用 PK 访问 结构 工 将 数据 明文 M 加 密 为 密 文 CTr 。 
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ID:Alice,Place:Home 
ID:Bob,Place:Office 


ID:Jim,Place:Home 







Place:Office 





ID:Alice Place:Home 


Æ 2-18 CP-ABE 访问 控制 结构 示意 图 








(3) SKs—- KeyGenC MK. S) : 使 用 MK ,用户 属性 值 S 生成 用 户 的 私 钥 SK,。 

(4) M 一 Decrypt(CTr ,SKs): 使 用 私 钥 SK, 解密 密 文 CTr 得 到 明文 M。 只 有 在 S 满 
ROT 的 条 件 下 ,Decrypt() 操 作 才能 成 功 。 

2) 访问 控制 方案 

在 上 述 算法 的 基础 上 ,图 2-19 展示 了 一 个 基于 CP-ABE 的 基本 访问 控制 方案 。 


服务 提供 者 





图 2-19 基于 CP-ABE 的 访问 控制 


参与 方 包括 如 下 4 个 : 

CD MARR (trusted authority) 。 维 护 了 每 个 用 户 的 属性 与 密 钥 的 对 应 关系 , 即 负责 
执行 上 述 CP-ABE 算法 的 第 (1) 步 ,产生 系统 的 公开 和 秘密 参数 PK 和 MK ,并 且 执行 CP- 
ABE 算法 的 第 (3) 步 为 用 户 发 布 属性 密 钥 。 它 是 整个 访问 控制 系统 中 唯一 需要 被 其 他 参与 
方 完 全 信任 的 参与 方 。 

(2) 数据 所 有 者 (data owner) 。 具 有 数据 的 所 有 权 , 并 希望 将 数据 通过 服务 提供 者 的 数 
据 服 务 向 其 他 用 户 分 享 。 数 据 所 有 者 负责 访问 策略 (访问 结构 T) 的 定义 ,并 执行 CP-ABE 
算法 的 第 (2) 步 产生 与 策略 绑 定 的 密 文 数据 ,然后 发 送 给 服务 提供 者 。 

(3) FAP Cuser) 。 即 数据 的 访问 者 。 若 该 用 户 具 有 满足 密 文 数据 所 绑 定 策略 中 要 求 的 
属性 , 即 持 有 可 信 权 威 针对 相应 属性 为 其 发 布 的 属性 密 钥 ,那么 就 可 以 成 功 地 执行 CP-ABE 
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算法 的 第 (4) 步 解密 出 数据 明文 ,实现 对 数据 的 访问 。 

(A) 服务 提供 者 (service provider) 。 负 责 提供 数据 的 外 包 存 储 , 不 参与 CP-ABE 的 算 
法 执行 。 其 中 数据 服务 器 (data server) 负责 存储 数据 ,数据 服务 管理 器 (data service 
manager) 人 负责 向 用 户 提 供 对 数据 的 各 种 操作 服务 。 数 据 服务 管理 器 是 “诚实 而 好 奇 ”的 , 即 
会 诚实 地 执行 用 户 发 起 的 各 种 操作 ,但 是 却 希望 能 够 更 多 地 获得 加 密 内 容 。 

3. 多 属性 权威 的 访问 控制 方案 

在 大 多 数 的 CP-ABE 技术 中 都 假设 仅 存在 一 个 属性 权威 ,因此 ,基于 这 些 技术 所 构造 
的 访问 控制 方案 也 只 适用 于 系统 内 只 存在 一 个 权威 的 场景 。 为 了 应 对 分 布 式 场景 中 多 个 权 
威 共存 的 情况 ,首先 要 对 CP-ABE 算法 进行 改进 ,使 其 支持 多 属性 权威 , 即 每 个 属性 权威 都 
能 够 独立 地 颁发 属性 ,然后 再 基于 多 权威 CP-ABE 算法 来 设计 访问 控制 方案 。 

D 多 权威 CP-ABE 算法 概述 

多 权威 CP-ABE 算法 包括 如 下 6 个 组 成 部 分 : 

(1) Setup: 为 每 个 属性 权威 AA 生成 AID, 并 为 每 个 用 户 生成 全 局 的 UID 和 公 
$H PKun 。 

(2) OwnerGen: 生成 主 密 钥 MK。 和 私 钥 SK。。 

(3) AAGen(AID): 将 AID 作为 输入 ,其 输出 为 版 本 密 钥 VKAm 和 AID 标识 的 属性 权 
威 所 颁发 的 所 有 属性 x WAA PK am? 。 

(4) KeyGen(S,SK。,VKawm， PKuw): 将 描述 私 钥 的 属性 集合 S 数据 所 有 者 的 私 钥 
SK, .当前 的 版 本 密 钥 VK am 和 用 户 的 公 钥 PKuw 作 为 输入 ,其 输出 为 给 数据 所 有 者 加 密 数 
据 的 密 钥 PK。Am 以 及 UID 标识 的 用 户 的 私 钥 SKum,am o 

(5) CT4 — EncryptC (PK, ar, }j ke，{PK-Am, }2€ Sq, 461, s MK, m» A): 将 涉及 的 属性 
权威 集合 L, 颁发 给 数据 所 有 者 的 公 钥 集合 CP am, rer v AID, 标识 的 属性 权威 所 颁发 的 
属性 集合 an, 所 对 应 的 公 钥 集合 (PK am, } esw we、 数据 所 有 者 的 主 密 钥 MK。、 数 据 明 
Xm MIERE Swn, 上 的 访问 结构 A 作为 输入 ,其 输出 为 密 文 CTA 。 

(6) Decrypt(CTa ,PKuw, {SKuw.am, J4e1,) : 将 密 文 CTA 、 用 户 的 公 钥 PKop 、 用 户 的 一 
组 来 自 不 同属 性 权威 的 私 钥 集合 {SKun.Am， Jen 作为 输入 ,其 输出 为 明文 Mo 只 有 在 属性 
集合 S 满足 访问 结构 A 的 条 件 下 ,Decrypt() 操 作 才能 成 功 。 

2) 访问 控制 方案 

为 了 支持 多 权威 的 分 布 式 应 用 场景 ,对 上 文 基于 CP-ABE 的 访问 控制 方案 进行 了 扩 
展 , 将 可 信 权 威 分 为 属性 权威 和 CA 两 类 ,如 图 2-20 所 示 。 

该 方案 的 参与 方 如 下 : 

(1) CACcertificate authority) 。 是 负责 为 整个 系统 中 所 有 用 户 和 属性 权威 颁发 和 维护 
身份 的 可 信 实 体 。CA 执行 算法 的 第 (1) 步 Setup ,为 每 个 属性 权威 分 配 一 个 AID ,为 每 个 用 
户 分 配 一 个 UID, 同 时 为 该 用 户 产 生 公 钥 PKum 。 

(2) 属性 权威 (attribute authority)。 是 负责 颁发 .撤销 和 更 新 用 户 属 性 的 可 信 实 体 。 
属性 权威 有 一 定 的 管理 域 , 只 负责 域内 用 户 属 性 的 管理 。 每 个 属性 权威 都 将 各 自 执行 算法 
的 第 (3) 步 AAGen(AID) ,产生 一 个 版 本 密 钥 VKawm。 并 为 自己 所 维护 的 所 有 属性 xz 产生 
公 钥 PK,..Am 。 每 个 属性 权威 还 将 执行 算法 的 第 (4) 步 KeyGen(S.SK,»VKam+PKum) ,为 数 
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图 2-20 支持 多 属性 权威 的 基于 CP-ABE 的 访问 控制 








据 所 有 者 产生 公 钥 PK ,同时 为 持 有 自己 所 维护 的 属性 的 那些 用 户 产 生 私 钥 SK, aw 。 

(3) 数据 所 有 者 (data owner)。 具 有 数据 的 所 有 权 , 并 希望 将 数据 通过 服务 提供 者 的 数 
据 服务 向 其 他 用 户 分 享 。 数 据 所 有 者 将 执行 算法 的 第 (2) 步 OwnerGen, 产 生 一 个 主 密 钥 
MK。, 以 及 自己 的 私 钥 SK。, 并 将 SK, 通过 安全 信道 发 送 给 系统 内 的 每 个 属性 权威 。 数 据 
所 有 者 在 加 密 数 据 时 将 采用 对 称 加 密 算法 。 为 了 实现 数据 的 受 限 访问 ,数据 所 有 者 将 进 一 
步 产 生 访 问 结构 来 描述 授权 用 户 的 范围 ,并 对 数据 加 密 密 钥 执行 算法 的 第 (5) 步 CT = 
Encrypt( (PK, a, J4er, + {PRs,am, Jas, 46r, * ， MK。,m,A) 进 行 加 密 。 其 中 ,m 为 加 密 密 
钥 ,A 为 访问 结构 ， (PK, a, Jeer, 是 相关 的 属性 权威 集合 La 为 数据 所 有 者 颁发 的 公 钥 ， 
(PK, an, } veswm， aer Æ L4 中 AID, 标识 的 属性 权威 颁发 的 属性 集合 SAm, 所 对 应 的 公 
集合 。 

(4) 用 户 (user)。 是 数据 的 访问 者 。 每 个 用 户 都 有 CA 颁发 的 UID 身份 标识 以 及 属性 
权威 颁发 的 属性 集合 。 用 户 在 从 服务 提供 者 获得 加 密 数据 以 及 CP-ABE 加 密 保护 的 对 称 
密 钥 后 ,将 首先 执行 算法 的 第 (6) 步 Decrypt(CTA ,PKun , {SKur.am, Je 1, ) 对 对 称 密 钥 进行 
解密 ,然后 再 利用 对 称 密 钥 解密 数据 。 其 中 ,CT 为 CP-ABE 加 密 保护 的 对 称 密 钥 ,PKum 
为 CA 颁发 给 用 户 的 公 钥 ,{SKur.am, Jae c, 为 属性 权威 给 该 用 户 颁 发 的 私 钥 。 如 果 用 户 的 
属性 满足 访问 结构 , 则 用 户 能 够 成 功 解密 出 对 称 密 钥 , 并 用 它 解密 数据 。 

(5) 服务 提供 者 (service provider) 。 负 责 提供 数据 的 外 包 存 储 , 不 参与 多 权威 CP-ABE 
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算法 的 执行 。 其 中 ,数据 服务 器 负责 存储 数据 ,数据 服务 管理 器 负责 向 用 户 提供 对 数据 的 各 
种 操作 服务 。 数 据 服务 管理 器 是 “诚实 而 好 奇 ” 的 , 即 会 诚实 地 执行 用 户 发 起 的 各 种 操作 ,但 
是 却 希 望 能 够 更 多 地 获得 加 密 内 容 。 

4. 外包 加 解密 的 访问 控制 方案 

由 于 CP-ABE 是 计算 密集 型 算法 ,所 以 基于 CP-ABE 的 访问 控制 方案 对 终端 的 计算 性 
能 有 较 高 要 求 , 限 制 了 它 在 诸如 移动 云 计 算 等 场景 下 终端 资源 有 限时 的 应 用 。 为 了 应 对 该 
问题 ,首先 要 对 CP-ABE 算法 进行 改进 ,将 其 中 计算 密集 的 操作 安全 地 外 包 给 服务 器 端 , 然 
后 再 基于 改进 后 的 算法 设计 访问 控制 方案 。 

1) PP-CP-ABE 算法 概述 

PP-CP-ABE(Privacy Preserving CP-ABE ,隐私 保护 CP-ABE) 算 法 与 前 述 CP-ABE 算 
法 的 结构 类 似 , 包 括 如 下 4 个 组 成 部 分 : 

(D Setup: 生成 主 密 钥 MK 和 公开 参数 PK. MK 由 算法 构建 者 掌握 ,不 允许 被 泄露 ， 
而 PK 被 发 送 给 系统 中 所 有 参与 方 。 

(2) CTr=Encrypt(PK, T.M): 使 用 PK .访问 结构 工 将 数据 明文 M 加 密 为 密 文 CTr。 
PP-CP-ABE 采用 访问 树 结构 来 描述 本, 并 将 其 分 为 两 个 部 分 Tu 和 T outsourcing s B T= Toca 
ANDT outsourcing ， 如 图 2-21 所 示 。 由 于 两 部 分 访问 结构 是 AND 关系 ,所 以 本 地 只 需要 保留 
Tu 相关 的 少量 加 密 运 算 Encryptie. 就 可 以 确保 执行 Tousourcing 相关 加 密 运 算 
Encryptousouwrang 的 外 包 服 务 提供 商 无 法 获得 秘密 信息 。 








图 2-21 PP-CP-ABE 访问 结构 示例 


(3) SKs=KeyGen(MK,S): 使 用 MK 用户 属性 值 S 生成 用 户 的 私 钥 SKs 。 

(4) M 一 Decrypt(CTr,SKs): 使 用 私 钥 SKs 解密 密 文 CTr 得 到 明文 M。 只 有 S 满足 
T 的 条 件 下 ,Decrypt() 操 作 才能 成 功 。 为 了 能 够 安全 地 将 解密 操作 外 包 ,PP-CP-ABE 将 解 
密 操 作 分 为 3 个 部 分 : 私 钥 盲 化 Blind、 盲 化 解密 Decryptsinaea 、 结 果 计 算 Calculate, Hp, 
Blind 在 本 地 执行 ,负责 将 SKs 盲 化 产生 SKs'. Decryptua fl Hl SKs 对 CT > 进行 解密 , 产 
生 中 间 结 果 。 最 后 ,在 本 地 对 中 间 结 果 执 行 Calculate, 获 得 明文 M. 

2) 访问 控制 方案 

为 了 支持 终端 计算 资源 受 限 的 场景 ,我 们 基于 上 述 PP-CP-ABE 算法 构建 了 访问 控制 
方案 ,增加 了 外 包 服 务 提供 者 来 承担 计算 密集 型 的 加 解密 操作 ,如 图 2-22 所 示 。 
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该 方案 的 参与 方 如 下 : 

(1) 可 信 权 威 。 负 责 执 行 PP-CP-ABE 算法 的 第 (1) 步 ,产生 系统 的 公开 和 秘密 参数 PK 
和 MK ,并 且 执行 PP-CP-ABE 算法 的 第 (3) 步 为 用 户 发 布 属性 密 钥 。 它 是 整个 访问 控制 系 
统 中 唯一 需要 被 其 他 参与 方 完全 信任 的 参与 方 。 

(2) 数据 所 有 者 。 具 有 数据 的 所 有 权 , 并 希望 将 数据 通过 存储 服务 提供 者 的 数据 服务 
向 其 他 用 户 分 享 。 数据 所 有 者 负责 访问 策略 (访问 结构 T) 的 定义 ,并 执行 PP-CP-ABE 算 
法 第 (2) 步 中 Encryption 部 分 ,并 将 结果 发 送 给 加 密 服务 提供 者 进一步 处 理 。 

(3) 加 密 服务 提供 者 (encryption service provider)。 负 责 为 数据 所 有 者 提供 数据 加 密 
服务 ,并 且 不 能 获得 关于 数据 加 密 密 钥 相关 的 信息 。 它 将 基于 数据 所 有 者 发 送 的 
Encryptom 计 算 结 果 ,执行 PP-CP-ABE 算法 第 (2) 步 中 Encryptowsoursing 部 分 ,产生 与 策略 绑 
定 的 密 文 数据 ,然后 发 送 给 存储 服务 提供 者 。 

(4) 用 户 。 即 数据 的 访问 者 。 若 该 用 户 具有 满足 密 文 数据 所 绑 定 的 策略 中 要 求 的 属 
性 , 即 持 有 可 信 权 威 针 对 相应 属性 向 其 颁发 的 属性 密 钥 ,那么 就 可 以 成 功 解密 出 数据 明文 ， 
实现 对 数据 的 访问 。 在 解密 数据 时 ,用 户 负责 执 行 PP-CP-ABE 算法 第 (4) 步 中 Blind 和 
Calculate 部 分 ,通过 对 私 钥 盲 化 来 确保 解密 服务 提供 者 无 法 获得 数据 明文 ,并 在 解密 服务 
提供 者 的 中 间 结 果 上 进一步 计算 得 到 正确 的 数据 明文 。 

(5) 解密 服务 提供 者 (decryption service provider) 。 负 责 为 用 户 提供 数据 解密 服务 ,并 
且 不 能 获得 数据 明文 。 它 执行 PP-CP-ABE 算法 第 (4) 步 中 Decryptsinaea 部 分 ,用 盲 化 后 的 
私 钥 对 数据 进行 解密 运算 ,得 到 解密 的 中 间 结 果 ,并 将 其 返回 给 用 户 。 

(6) 存储 服务 提供 者 (storage service provider) 。 负 责 提 供 数据 的 外 包 存 储 , 不 参与 
PP-CP-ABE 的 算法 执行 。 其 中 ,数据 服务 器 负责 存储 数据 ,数据 服务 管理 器 负责 向 用 户 提 
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供 对 数据 的 各 种 操作 服务 。 
上 述 计算 服务 提供 者 和 存储 服务 提供 者 都 是 “诚实 而 好 奇 ” 的 , 即 会 诚实 地 执行 用 户 发 
起 的 各 种 操作 ,但 是 却 希望 能 够 更 多 地 获得 数据 内 容 和 密 钥 信息 。 


2.4 注 记 与 文献 


本 章 在 大 数据 背景 下 对 数据 的 安全 存储 和 访问 控制 技术 进行 了 介绍 。 这 些 技术 大 致 被 
BARK: 基于 可 信 引 用 监控 机 的 技术 和 基于 密码 学 的 技术 。 这 两 类 技术 都 有 各 自 适 用 的 
场景 和 范围 。 基 于 可 信 引 用 监控 机 的 技术 需要 由 可 信 引 用 监控 机 来 实施 数据 的 安全 策略 ， 
其 优点 是 效率 较 高 ,但 是 也 存在 一 些 场景 下 难以 构建 可 信 引 用 监控 机 的 问题 。 而 基于 密码 
学 的 技术 则 将 数据 安全 性 建立 在 密码 学 基础 上 ,无 须 依赖 可 信 引 用 监控 机 就 可 以 实施 。 其 
优点 是 适用 场景 较 广 ,但 是 数据 加 密 带 来 的 计算 负担 也 为 其 在 海量 数据 场景 下 的 应 用 带 来 
挑战 。 我 们 认为 ,在 大 数据 场景 下 需要 根据 具体 的 应 用 需求 灵活 地 对 安全 存储 技术 进行 选 
择 。 通 常情 况 下 ,对 于 数据 量 庞大 ,安全 性 要 求 相 对 较 低 的 数据 集 , 可 以 采用 基于 可 信 引 用 
监控 机 的 技术 ;而 对 于 数据 量 较 小 ,安全 性 要 求 却 很 高 的 数据 集 , 应 采用 基于 密码 学 的 技术 。 

早期 的 访问 控制 技术 都 是 基于 可 信 引 用 监控 机 的 , 它 的 发 展 经 历 了 自主 访问 控制 强制 
访问 控制 .基于 角色 的 访问 控制 .基于 属性 的 访问 控制 等 阶段 。 其 中 自主 访问 控制 是 产生 最 
早 , 也 是 最 基本 的 一 种 访问 控制 技术 ,至 今 仍 有 大 量 应 用 ;政府 、 军 队 等 安全 性 要 求 较 严 格 的 
机 构 则 多 采用 强制 访问 控制 ;在 商业 领域 ,基于 角色 的 访问 控制 是 目前 应 用 最 为 广泛 的 ; 基 
于 属性 的 访问 控制 则 适用 于 多 安全 域 的 互联 网 应 用 。 然 而 ,在 大 数据 应 用 场景 下 ,由 于 大 数 
据 的 规模 和 增长 速度 以 及 应 用 的 开放 性 ,使 得 安全 管理 员 对 于 访问 控制 的 权限 管理 越 来 越 
困难 。 同 时 ,数据 应 用 需求 的 不 可 预测 性 也 使 得 管理 员 无 法 预先 制定 恰当 的 访问 控制 策略 。 
因此 ,访问 控制 技术 迫切 需要 自动 化 的 授权 管理 和 自 适应 的 访问 控制 以 使 其 满足 大 数据 场 
景 的 需求 。 为 了 应 对 这 些 问 题 ,目前 已 经 有 了 一 些 相关 研究 工作 ,本 章 从 中 选取 了 角色 挖 
据 、 风 险 访问 控制 两 类 具有 代表 性 的 技术 进行 了 详细 介绍 。 

角色 挖 据 是 应 用 于 基于 角色 的 访问 控制 系统 中 的 技术 , 它 能 够 辅助 安全 管理 员 发 现 系 
统 中 的 潜在 角色 ,从 而 简化 他 们 的 权限 管理 工作 。 在 大 数据 应 用 中 ,由 于 系统 的 规模 和 复杂 
性 使 得 管理 员 自 上 而 下 地 进行 角色 定义 变 得 越 来 越 困 难 , 而 角色 挖 握 这 种 自 底 向 上 的 自动 
化 角色 定义 方式 就 为 大 数据 应 用 中 实施 基于 角色 的 访问 控制 提供 了 有 效 途径 。 需 要 注意 的 
是 ,不 仅 基 于 角色 的 访问 控制 中 的 角色 可 以 从 数据 中 挖 气 ,其 他 访问 控制 技术 的 权限 相关 要 
素 ( 甚 至 权限 本 身 ) 也 可 以 从 数据 中 挖 气 。 例 如 ,为 实施 基于 属性 的 访问 控制 ,可 以 从 数据 中 
挖 据 主 体 、 客 体 、 环 境 等 的 属性 。 

风险 访问 控制 的 目的 在 于 解决 预先 定义 的 静态 访问 规则 和 未 来 不 可 预期 的 访问 控制 需 
求 之 间 的 矛盾 ,为 访问 控制 提供 权限 控制 的 灵活 性 。 为 了 达到 该 目的 ,首先 需要 对 风险 进行 
量化 。 在 本 章 中 介绍 了 风险 要 素 选取 .量化 计算 方法 等 风险 量化 的 细节 内 容 。 在 对 访问 请 
求 的 风险 进行 量化 后 ,就 需要 进一步 解决 这 些 量化 值 的 利用 问题 。 传 统 访问 控制 的 “允许 / 
拒绝 ”二 值 判 定 并 不 能 很 好 地 体现 权限 控制 的 灵活 性 。 因 此 ,本 章 介绍 了 采用 风险 带 的 访问 
控制 判定 方法 , 它 允 许 满足 部 分 访问 控制 条 件 的 访问 请 求 获得 部 分 访问 权限 。 然 后 介绍 了 
风险 与 收益 的 平衡 机 制 ,例如 信用 卡 式 、 交 易 市 场 式 等 。 最 后 ,针对 一 些 需要 实施 静态 且 严 
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格 的 访问 控制 规则 的 应 用 场景 ,又 介绍 了 风险 访问 控制 和 其 他 访问 控制 技术 结合 的 方法 。 

除了 上 述 基于 可 信 引 用 监控 机 的 访问 控制 技术 外 ,还 有 一 大 类 访问 控制 技术 是 基于 密 
码 学 的 。 这 类 技术 又 可 进一步 分 为 基于 密 钥 管理 的 访问 控制 技术 和 基于 属性 的 访问 控制 技 
术 。 本 章 也 对 这 类 技术 进行 了 详细 论述 。 

基于 密 钥 管理 的 访问 控制 技术 是 指 通过 密 钥 管理 实现 数据 的 解密 密 钥 只 能 被 授权 用 户 
持 有 ,进而 实现 访问 控制 。 而 传统 的 密 钥 管理 技术 需要 依赖 于 一 个 可 信 的 密 钥 管理 系统 ,这 
对 于 大 数据 应 用 场景 来 说 是 较 难 实现 的 。 因 此 ,本 章 介绍 了 广播 加 密 技 术 , 它 不 需要 依赖 于 
可 信 的 密 钥 管理 系统 进行 密 负 管理 ,而 是 由 数据 所 有 者 (或 发 送 者 ) 自 己 进行 密 钥 管理 。 广 
播 加 密 技术 根据 采用 的 密码 体制 的 不 同 ,又 可 分 为 采用 对 称 密码 技术 的 单 发 送 者 广播 加 密 
技术 和 采用 非 对 称 密码 技术 的 公 钥 广播 加 密 技 术 。 单 发 送 者 广播 加 密 技 术 要 求 发 送 者 能 够 
获得 系统 中 所 有 潜在 接收 者 的 对 称 密 钥 ,因此 , 仅 适合 发 送 者 是 所 有 人 都 信任 的 用 户 的 场 
景 。 而 公 钥 广播 加 密 技术 由 于 采用 非 对 称 密码 技术 ,发 送 者 无 须 持 有 接收 者 的 私 钥 ,因此 ， 
适用 范围 更 加 广泛 。 

基于 属性 的 访问 控制 技术 采用 了 ABE 算法 来 实现 访问 控制 。 在 基于 广播 加 密 的 访问 
控制 技术 中 ,数据 所 有 者 需要 持 有 所 有 授权 用 户 的 密 钥 ( 公 钥 ) 才 能 够 实现 数据 的 安全 分 享 。 
而 在 大 数据 应 用 中 ,由 于 系统 规模 和 复杂 性 ,数据 所 有 者 较 难 预先 获得 所 有 授权 用 户 的 密 
钥 。 为 了 解决 该 问题 ,出 现 了 基于 ABE 的 访问 控制 技术 。 它 允许 数据 所 有 者 在 预先 不 知道 
潜在 授权 用 户 的 身份 和 相关 的 密 钥 集 的 情况 下 进行 数据 的 访问 权限 管理 。 这 些 访 问 控制 技 
术 的 研究 是 在 对 存储 服务 器 、 属 性 权威 、 客 户 端 在 计算 能 力 和 安全 性 方面 的 不 同 假设 条 件 下 
进行 的 ,例如 ,为 了 应 对 单 属性 权威 的 性 能 瓶颈 而 提出 的 多 属性 权威 方案 ,以 及 为 了 应 对 客 
户 端 计算 能 力 不 足 而 提出 的 外 包 加 密 、 外 包 解 密 方案 等 。 
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内 容 提 要 : 大 数据 最 终 的 价值 在 于 开放 和 共享 ,如 何在 确保 各 参与 方 的 隐私 的 前 提 下 
对 大 数据 进行 更 好 的 应 用 ,一 直 是 业界 研究 的 热点 和 难点 。 本 章 重点 介绍 的 安全 检索 技术 
是 指 基 于 密码 学 方法 ,利用 特殊 设计 的 加 密 算法 或 者 协议 ,实现 对 数据 的 查询 访问 ,同时 保 
护 数据 的 隐私 内 容 。 目 前 存在 多 种 安全 检索 技术 ,其 保护 的 目标 有 所 不 同 , 例 如 ,PIR 技术 
主要 是 保护 用 户 的 查询 意图 ,ORAM 技术 主要 是 保护 用 户 对 存储 介质 的 访问 模式 , 密 文 检 
索 技 术 主 要 是 保护 用 户 的 数据 和 查询 条 件 的 机 密 性 ,等 等 。 本 章 将 对 这 些 技术 进行 逐一 
介绍 。 

关键 词 : PIR 技术 ;ORAM 技术 ; 密 文 检索 ;可 搜索 加 密 ;对 称 密 文 检 索 ; 非 对 称 密 文 检 
索 ; 关 键 词 检索 ;模糊 检索 ;Top-k 检索 ;前 向 安全 性 ;区 间 检 索 ; 谓 词 加 密 ; 纶 阵 加 密 ; 保 序 
加 密 。 


3.1 基本 概念 
3.1.1 背景 介绍 


云 存储 是 在 云 计 算 概念 上 衍生 出 来 的 ,其 继承 了 云 计算 的 按 需 使 用 、 高 可 扩展 性 ,快速 
部 署 等 特点 ,解决 了 当前 政府 和 企业 需要 不 断 增加 软 硬 件 设备 和 数据 库 管理 人 员 来 自主 地 
存储 、 管 理 和 维护 海量 数据 的 问题 。 然 而 ,由 于 云 存储 使 得 数据 的 所 有 权 和 管理 权 相 分 离 ， 
用 户 数 据 将 面临 多 方面 的 安全 威胁 。 首 先 ,具有 优先 访问 权 的 云 存储 服务 提供 商 的 恶意 操 
作 ( 如 美国 政府 雇员 窃取 社保 信息 等 ) 或 失误 操作 都 有 可 能 导致 数据 的 泄露 ;其 次 , 云 服务 器 
还 时 刻 面临 着 外 部 攻击 者 的 威胁 (如 iCloud 好 莱 坞 明星 隐私 泄露 事件 ); 此 外 , 云 数据 还 可 
能 受到 各 国政 府 的 审查 ,如 著名 的 美国 国家 安全 局 的 “棱镜 ”项目 。 

为 保证 云 数 据 的 安全 性 ,一 种 通用 的 方法 是 用 户 首先 使 用 安全 的 加 密 机 制 ( 如 DES、 
AES RSA 等 ) 对 数据 进行 加 密 , 然 后 再 将 密 文 数据 上 传 至 云 服 务 器 。 由 于 只 有 用 户 知道 解 
密 密 钥 ,而 云 存 储 服务 提供 商 得 到 的 信息 是 完全 随机 化 的 ,所 以 此 时 数据 的 安全 性 掌握 在 用 
户 手 中 。 数 据 加 密 导 致 的 直接 后 果 就 是 云 服务 器 无 法 支持 一 些 常见 的 功能 ,例如 , 当 用 户 需 
要 对 数据 进行 检索 时 ,只 能 把 全 部 密 文 下 载 到 本 地 ,将 其 解密 后 再 执行 查询 操作 。 上 述 存储 
和 检索 方式 可 以 最 大 化 地 保证 用 户 数据 的 安全 性 ,但 是 要 求 客 户 端 具有 较 大 的 存储 空间 以 
及 较 强 的 计算 能 力 , 且 没 有 充分 发 挥 云 存 储 的 优势 。 因 此 ,需要 对 密 文 检索 Searchable 
Encryption,SE, 也 译 为 可 搜索 加 密 ) 技 术 进 行 研 究 , 它 支 持 云 存 储 系统 在 密 文 场景 下 对 用 户 
数据 进行 检索 ,然后 将 满足 检索 条 件 的 密 文 数据 返回 给 用 户 , 最 后 用 户 在 本 地 将 检索 结果 解 
密 , 从 而 获得 自己 想 要 的 明文 数据 。 在 检索 过 程 中 , 云 服务 器 无 法 获得 用 户 的 敏感 数据 和 查 
询 条 件 , 即 密 文 检 索 可 以 同时 保护 数据 机 密 性 以 及 查询 机 密 性 。 

目前 ,学 术 界 对 安全 检索 领域 的 研究 热点 主要 集中 于 密 文 检索 技术 ,但 是 早 在 密 文 检索 
技术 出 现 之 前 ,传统 数据 库 以 及 外 包 数 据 库 领域 即 已 存在 一 些 其 他 的 安全 检索 相关 研究 ,如 
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PIR( Private Information Retrieval. 隐私 信息 检索 ) 技 术 和 ORAM (Oblivious Random 
Access Memory', 健 忘 随 机 存 取 存 储 器 ) 技 术 。 这 些 技术 与 密 文 检 索 的 保护 目标 不 同 , 且 实 
用 效率 普遍 不 如 密 文 检索 ,但 是 其 中 不 少 方案 均 具 有 重要 的 理论 意义 ,因此 ,本 章 将 其 统称 
为 “早期 安全 检索 技术 ”并 予以 简单 介绍 。 


3.1.2 密 文 检索 概述 


2000 年 ,Song 等 人 中 首次 提出 密 文 检索 技术 , 它 允 许 云 服务 器 直接 在 密 文 数据 上 进行 
检索 操作 ,同时 不 泄露 用 户 的 明文 数据 和 检索 条 件 。 然 而 ,由 于 该 方案 的 检索 时 间 与 数据 量 
呈 线 性 关系 ,因此 ,不 适用 于 大 数据 应 用 环境 。 目 前 主流 的 密 文 检 索 方案 基本 上 是 基于 索引 
的 , 即 敏感 数据 本 身 由 传统 的 加 密 算法 加 密 , 同 时 为 需要 查询 的 内 容 构造 支持 检索 功能 的 安 
全 索引 。 

如 图 3-1 所 示 , 密 文 检 索 主 要 涉及 数据 所 有 者 、 数 据 检索 者 以 及 服务 器 3 种 角色 。 其 
中 ,数据 所 有 者 是 敏感 数据 的 拥有 者 ,数据 检索 者 是 查询 请 求 的 发 起 者 ,这 二 者 通常 仅 具备 
有 限 的 存储 空间 和 计算 能 力 :服务 器 为 所 有 者 和 检索 者 提供 数据 存储 和 数据 查询 服务 ,其 由 
云 存储 服务 提供 商 进 行 管理 和 维护 ,并 具有 强大 的 存储 能 力 和 计算 能 力 。 数 据 所 有 者 首先 
为 需要 检索 的 数据 构造 支持 检索 功能 的 索引 ,同时 使 用 传统 的 加 密 技术 加 密 全 部 数据 ,然后 
将 密 文 数据 和 索引 共同 上 传 至 服务 器 。 检 索 时 ,数据 检索 者 为 检索 条 件 生成 相应 的 陷 门 ,并 
发 送 给 服务 器 。 随 后 ,服务 器 使 用 索引 和 陷 门 进行 协议 预 设 的 运算 ,并 将 满足 检索 条 件 的 密 
文 数据 返回 给 数据 检索 者 。 最 后 ,数据 检索 者 使 用 密 钥 将 检索 结果 解密 ,得 到 明文 数据 。 有 
时 ,服务 器 返回 的 密 文 数据 中 可 能 包含 不 满足 检索 条 件 的 元 余数 据 , 此 时 数据 检索 者 还 需要 
对 解密 后 的 明文 数据 进行 二 次 检索 , 即 在 本 地 上 剔除 元 余数 据 。 通 常情 况 下 , 密 文 检索 方案 允 
许 检索 结果 中 包含 元 余数 据 , 但 是 满足 检索 条 件 的 数据 必须 被 返回 , 即 检索 结果 的 误 报 率 可 
以 不 为 0% ,但 是 召回 率 应 为 100%。 


索引 
g 密 文 数据 和 索引 "M 
数据 所 有 者 数据 检索 者 
服务 器 


陷 门 
密 文 结果 
密 文 数据 








图 3-1 密 文 检索 结构 图 


EER 3 个 角色 中 ,通常 认为 数据 所 有 者 和 数据 检索 者 是 完全 可 信 的 ,而 服务 器 属于 攻 
击 者 ,其 对 用 户 的 敏感 数据 和 检索 条 件 比 较 好 奇 。 此 外 ,由 于 服务 器 掌握 了 最 多 的 信息 ( 包 
括 全 部 密 文 数据 .索引 、 陷 门 、 检 索 结 果 等 ) ,因此 ,不 再 额外 考虑 其 他 外 部 攻击 者 。 目 前 大 部 
分 密 文 检索 方案 均 假 设 服务 器 是 “诚实 而 好 奇 * 的 (Honest-But-Curious, HBC) , 即 服务 器 会 
忠实 地 执行 数据 检索 者 提交 的 检索 请 求 , 并 返回 相应 的 检索 结果 ,同时 其 可 能 会 利用 自己 所 
掌握 的 一 切 背 景 知识 来 进行 分 析 ,期望 获得 真实 的 敏感 数据 和 检索 条 件 。 如 果 服 务 器 进行 
恶意 攻击 ,如 纂 改 用 户 数 据 或 者 仅 返 回 部 分 检索 结果 ,那么 可 以 借助 完整 性 验证 技术 对 数据 
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进行 检查 ,这 部 分 内 容 属于 单独 的 研究 领域 ,本 章 不 过 多 介绍 。 

密 文 检索 方案 的 性 能 主要 从 3 个 方面 进行 考虑 : @ 数 据 所 有 者 的 索引 生成 效率 ; 四 数 
据 检索 者 的 陷 门生 成 效率 ; @@ 服 务 器 的 检索 效率 。 由 于 索引 的 生成 过 程 是 一 次 性 的 ,而 陷 
门 则 是 数据 检索 者 根据 自己 的 检索 条 件 构造 的 ,消耗 时 间 一 般 较 少 ,因此 ,本 章 主 要 关注 检 
索 效率 , 即 服务 器 使 用 陷 门 和 索引 完成 查询 操作 的 时 间 。 


3.1.3. 密 文 检索 分 类 


如 表 3-1 所 示 , 根 据 应 用 场景 的 不 同 , 密 文 检索 技术 可 分 为 对 称 密 文 检索 (Symmetric 
Searchable Encryption, SSE, 也 译 为 对 称 可 搜索 加 密 ) 和 非 对 称 密 文 检索 (Asymmetric 
Searchable Encryption,ASE, 也 译 为 非 对 称 可 搜索 加 密 ) 两 大 类 。 


表 3-1 对 称 密 文 检索 和 非 对 称 密 文 检索 的 比较 














"ood 对 称 密 文 检索 非 对 称 密 文 检索 
密 文 和 索引 的 构建 由 私 钥 生 成 由 公开 参数 生成 
密 钥 管理 单 用 户 场 景 多 用 户 场景 
性 能 高 效 低 效 
解决 的 问题 不 可 信服 务 器 存储 不 可 信服 务 器 路 由 








CD 对 称 密 文 检索 。 在 对 称 密 钥 环 境 下 ,只 有 数据 所 有 者 拥有 密 钥 , 也 只 有 数据 所 有 者 
可 以 提交 敏感 数据 ,生成 陷 门 , 即 数据 所 有 者 和 数据 检索 者 为 同一 人 。 对 称 密 文 检索 主要 适 
用 于 单 用 户 场景 ,例如 A 将 自己 的 日 志 秘 密 保存 在 云 服务 器 ,只 有 A 能 对 这 些 日 志 进 行 

(2) 非 对 称 密 文 检索 。 在 非 对 称 密 钥 环 境 下 ,任何 可 以 获得 数据 检索 者 公 钥 的 用 户 都 
可 以 提交 敏感 数据 ,但 只 有 拥有 私 钥 的 数据 检索 者 可 以 生成 陷 门 。 非 对 称 密 文 检索 主要 适 
用 于 多 用 户 场景 ,如 在 邮件 系统 中 ,发 件 人 使 用 收 件 人 的 公 钥 加 密 邮 件 , 而 收 件 人 可 以 对 这 
些 邮件 进行 查询 。 
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单 关键 词 检索 
的 数据 进行 检索 。 sium] eed 
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CD 密 文 关键 词 检 索 。 主 要 用 于 检索 字符 型 数 图 3-2 密 文 检索 的 功能 分 类 
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可 以 对 文档 进行 评分 并 优先 返回 分 数 较 高 的 文档 ,从 而 避免 检索 结果 集 过 于 庞大 的 情况 。 
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3.2 早期 安全 检索 技术 


3.2.1 PIR 技 术 


PIR 技术 的 研究 主要 针对 公开 数据 库 , 其 目标 是 允许 用 户 在 不 向 服务 器 暴露 查询 意图 
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类 : 单 服务 器 的 、 多 服务 器 的 , 单 轮 交互 的 以 及 多 轮 交互 的 。 目 前 主要 研究 的 是 单 轮 交互 的 
PIR 问题 。 

定义 3-1( 单 轮 交 互 的 PIR 问题 ) 设 存在 (三 1) 个 服务 器 ,其 存储 的 内 容 完全 相同 , 均 
为 对 个 比特 的 信息 X={ziyza,…yzo), 且 服务 器 之 间 不 会 进行 相互 通信 。 用 户 A 希望 对 
服务 器 中 的 数据 进行 查询 ,并 得 到 zx; ,其 具体 查询 过 程 如 下 : 

(1) A 生成 一 个 随机 数 ,并 根据 x 和 i 生成 k 个 查询 {gi ,gs，,… ,gi) ,然后 将 其 分 别 发 
送 给 个 服务 器 。 

(2) 各 服务 器 分 别 返回 相应 的 查询 结果 : {Ans(gi),Ans(gs),…,Ans(g,))。 

(3) A 根据 r 和 {Ans(gq1),Ans(gs),…,Ans(g;)) 计 算得 到 正确 的 zx;。 

如 果 在 上 述 查 询 过 程 中 ,所 有 服务 器 均 不 了 解 关 于 i 的 任何 信息 , 则 称 这 一 交互 是 PIR 
的 。 换 句 话 说 ,如 果 A 进行 了 两 次 查询 ,分 别 访问 了 rz 和 zz , 则 服务 器 j 对 这 两 次 查询 所 
见 的 视图 在 概率 分 布 上 没有 区 别 , 即 

Visi’ ji:Pr[ View; CX D — view] — Pr[ View; (X ,i’) — view] 

显然 ,最 直观 的 PIR 实现 方法 就 是 服务 器 将 所 有 信息 全 部 返回 给 A, 由 A 在 本 地 自行 
查找 x; ,但 是 这 种 方法 的 交互 代价 为 n, 因 此 并 不 实用 。 那 么 ,能 否 找 到 交互 代价 低 于 的 
PIR 方法 呢 ? 
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R. VL R—A 为 例 ,可 以 设计 一 个 在 多 服务 器 中 实现 信息 论 安全 且 复 杂 度 为 OC Rn) f 
PIR 方案 。 假 设 是 一 个 位 串 ( 也 称 比特 串 ) , 且 i lol W oDi 表示 将 位 串 ce 的 第 i 位 进行 
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CD 将 数据 XS Gan eas t ,Zz,) 表 示 为 一 个 Vn XVn 的 矩阵 , 则 待 查询 的 数据 z; 可 表示 
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为 za GOP inis 是 x; 在 矩阵 中 的 坐标 ), 并 将 4 个 服务 器 分 别 表 示 为 DB 、DBu 、 
DB ,DB o 

(2) A 生成 两 个 长 度 为 Vn 的 随机 数 8、r, 并 计算 2 一 ia m — Di 

(3) A 将 6 和 + 发送 给 DBo ,将 6 和 i 发 送 给 DBu ,将 1 Ac REA DB ,将 9 fln 
发 送 给 DB 。 

(4) 服务 器 DBy 3E [f] 2 CDs yi eco us ,服务 器 DBy 3E Bl Z5 CDs is gia; vig 9 
服务 器 DB 返回 结果 人 sa 6-161; u, ,服务 器 DB 返回 结果 5 Goes p1 Tj use 

(5) A 将 返回 结果 进行 异 或 ,得 到 ri i, o 

现在 考虑 上 述 方案 的 正确 性 。 由 于 zi ,; 满足 OG) AAG) A eG Arn (is), 因 此 ， 
Zi 避 必 然 在 服务 器 的 返回 结果 中 出 现 1 次 。 对 于 其 他 任意 的 zs, 要么 6(is) 二 人 (is), 要 
A tT(i4) 二 (i4) ,因此 ,它们 都 会 出 现 偶数 次 ,会 在 异 或 过 程 中 被 消除 。 

上 述 方案 的 交互 代价 为 8Vn 十 4, 其 安全 性 也 是 显而易见 的 : 单个 服务 器 所 见 的 只 是 两 
个 长 度 为 Vn 的 串 , 无 法 从 中 推出 任何 关于 i 的 信息 。 

此 后 ,人 们 又 提出 了 一 些 通信 复杂 度 更 低 的 信息 论 安全 的 服务 器 PIR 方法 "* ,其 复 
杂 度 在 O(n? ) 8] O (i ) cli] 

以 上 PIR 方法 都 是 基于 信息 论 安 全 前 提 的 ,这 个 条 件 比 较 强 ,在 实际 应 用 中 ,可 以 采取 
弱化 的 安全 性 要 求 , 即 假设 服务 器 仅 拥 有 多 项 式 计算 能 力 。 这 时 ,可 以 基于 某 些 多 项 式 计算 
能 力 的 敌手 无 法 完成 的 困难 问题 来 实现 通信 复杂 度 低 于 O(n) 的 单 服务 器 PIR 方案 。 下 面 
详细 介绍 如 何 基 于 二 次 剩余 (Quadratic Residues QR) 问 题 ,在 单 服务 器 中 实现 复杂 度 为 
O(n?*? yA PIR 方案 co 。 

定义 3-2( 二 次 剩余 问题 ) 设 > Mm 是 两 个 互 素 的 整数 ,如 果 存 在 整数 a fi at = 
z mod m WFK z 是 一 个 在 模 m 运算 上 的 二 次 剩余 。 

一 般 认为 ,给 定 x 和 wm WMR m 是 两 个 大 素数 的 积 , 且 敌 手 不 了 解 m 的 因子 分 解 , 则 敌 
FHE x 是 否 是 QR 是 困难 的 (与 对 m 进行 因子 分 解 的 难度 相当 ) 。 

基于 二 次 剩余 问题 的 单 服务 器 PIR 方案 如 下 : 

COD dd &— n ,将 大 小 为 n 的 数据 库 X 表示 为 一 个 kXk 的 矩阵 , 则 待 查询 的 数据 ae, 可 
ROM xau la bh. 

(2) A 生成 两 个 二 进 制 等 长 的 素数 pi po IN pr pr 

AMZ, 中 选择 & 个 雅 可 比 符号 为 1 的 元 素 i vesc ye APR ys 之 外 均 
为 QR。 

(4) A 将 NN 以 及 yi,ys，… 发 送 给 服务 器 。 

(5) 服务 器 对 所 有 元 素 ziv 计 算 Cou: WE ru; 0.9 Ci 二 ;否则 ,Ci, 二 yj。 


(6) 服务 器 返回 {n = Cyr = HO = Cu} 


(7) A 进行 观察 ,如 果 x。 是 QR, 则 zs 二 0, 否 则 ,zs 二 1( 因 为 A 了解 N 的 因子 分 解 ， 
所 以 他 可 以 判定 ra 是 否 是 QR). 

现在 考虑 上 述 PIR 方案 的 正确 性 。 若 xz。.s 一 0, 则 rs。 必然 是 一 组 QR 的 乘积 ,依然 是 
QR: FM sr. 是 一 组 QR FEV w ,必然 不 是 QR. 
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所 以 他 可 以 判定 ra 是 否 是 QR). 

现在 考虑 上 述 PIR 方案 的 正确 性 。 若 xz。.s 一 0, 则 rs。 必然 是 一 组 QR 的 乘积 ,依然 是 
QR: FM sr. 是 一 组 QR FEV w ,必然 不 是 QR. 
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E N 的 长 度 为 中 , 则 上 述 方案 的 交互 代价 为 wn?”。 在 安全 性 方面 ,也 容易 通过 反 证 法 
证 明 : 如 果 服 务 器 能 够 了 解 关于 i 的 信息 , 则 服务 器 也 能 解决 QR 问题 。 


3.2.2 扩展 : PIRK 技术 以 及 SPIR 技术 


1. PIRK 技术 

PIR 方案 假设 数据 是 二 进 制 的 , 且 客 户 端 已 经 了 解 待 获取 的 数据 在 数据 集中 的 位 置 。 
但 是 实际 检索 场景 中 并 不 是 这 样 的 ,客户 端 一 般 都 是 输入 一 个 感 兴趣 的 关键 词 ,然后 服务 器 
根据 该 关键 词 找到 对 应 的 数据 内 容 。 为 此 ,人 们 提出 了 PIRK (Private Information 
Retrieval by Keywords, 基 于 关键 词 的 隐私 信息 检索 ) 技 术 55 。 

定义 3-3(PIRK 问题 ) 设 存在 & 个 服务 器 ,其 存储 的 内 容 完全 相同 A n 个 长 度 为 / 
的 字符 串 S 二 {51,so,…,s,), 且 服务 器 之 间 不 相互 通信 。A 感 兴趣 的 关键 词 是 一 个 长 度 为 
的 字符 串 w。 如 果 存 在 一 个 协议 使 A 能 够 得 到 所 有 满足 s= w 的 j, 且 任意 服务 器 均 不 了 
解 关于 w 的 任何 信息 , 则 称 该 协议 是 PIRK, n.k) HY 

需要 注意 的 是 ,此 定义 只 包含 了 找到 s; 一 z 的 过 程 ,而 在 找到 s; 之 后 要 获取 对 应 的 
数据 内 容 , 则 可 以 通过 运行 一 般 的 PIR 协议 完成 。 

2. SPIR 技术 

从 服务 器 的 角度 来 看 ,PIR 技术 仅 保护 了 客户 端的 查询 意图 ,而 对 服务 器 中 的 数据 集 缺 
乏 保 护 。 因 此 ,由 PIR 技术 进一步 发 展 至 SPIR(Symmetric Private Information Retrieval. 
对 称 隐私 信息 检索 ) 技 术 , 其 目标 是 将 保护 范围 扩大 到 服务 器 ,具体 内 容 可 参阅 文献 [12]。 

SPIR 问题 与 3. 2. 1 节 中 描述 的 PIR 问题 相似 ,但 是 在 其 基础 上 增加 了 一 项 要 求 : A 不 
了 解 x; 之 外 的 任何 信息 。 换 句 话说 ,如 果 存 在 两 个 数据 源 X — (asean) M YS {ys 
otv) H zz; 二 yi;, 则 对 于 这 两 个 数据 源 ,A 查询 第 i 份 数 据 时 所 见 的 视图 应 当 没 有 任何 
区 别 , 即 Pr[ Views CX 4D — view ] — Pr Viewa Y +i) =viewj。 

可 以 证 明 , 任 意 N 服务 器 的 PIR 方法 都 可 以 转换 为 一 个 N 十 1 服务 器 、 同 样 数量 级 复 
杂 度 的 SPIR 方法 。 另 外 , 某 些 特定 的 N 服务 器 的 PIR 方法 也 可 以 转换 为 一 个 N 服务 器 、 
同样 数量 级 复杂 度 的 SPIR 方法 。 

SPIR 与 密码 学 中 的 健忘 传输 (OT)[13] 非 常 相似 ,不 同 之 处 在 于 OT 一 般 是 单 服务 器 
的 ,而 SPIR 一 般 是 多 服务 器 的 。 





3.2.3 ORAM 技术 


ORAM 技术 是 面向 秘密 数据 库 的 ,其 目标 是 在 读 写 过 程 中 向 服务 器 隐藏 用 户 的 访问 模 
式 。 这 里 ,访问 模式 是 指 客户 端 向 服务 器 发 起 访问 所 泄露 的 信息 ,包括 操作 是 读 还 是 写 、 操 
作 的 数据 地 址 ,操作 的 数据 内 容 等 。PIR 只 考虑 保护 客户 端的 查询 意图 ,整个 数据 库 的 内 容 
对 服务 器 是 可 见 的 ;而 ORAM 则 认为 整个 服务 器 的 存储 介质 都 是 不 安全 的 ,因此 要 求 数据 
是 加 密 的 ,同时 向 服务 器 隐藏 读 、 写 两 种 操作 。 

设想 用 户 需 要 在 一 个 不 安全 的 服务 器 存储 n 份 数 据 {zi ,xs,，… ,zx,), 为 此 ,用 户 使 用 一 
种 加 密 算法 加 密 数据 : xz; 一 X;, 并 将 加 密 后 的 数据 {Xi Xo en XL) Efe TIR Hn. HORS UH 
户 可 以 向 服务 器 发 起 如 下 两 种 请 求 :“ 读 取 第 i 份 数据 ”或 者 “将 数据 data BAB i 个 位 
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置 "。 由 于 数据 是 加 密 的 ,服务 器 无 法 了 解 用 户 请 求 读 写 的 数据 内 容 , 但 是 由 于 用 户 的 访问 
模式 是 固定 的 ,导致 服务 器 仍然 能 了 解 到 如 下 信息 :“ 哪 个 位 置 的 数据 被 访问 了 ”。 一 个 恶 
意 的 敌手 可 能 通过 这 些 信息 得 到 服务 器 磁盘 中 数据 被 访问 的 频率 ,最 后 猜测 出 数据 的 内 容 。 
那么 ,能 否 隐 藏 用 户 的 访问 模式 以 避免 这 类 攻击 威胁 呢 ? 为 此 ,人 们 提出 了 ORAM 技术 以 
解决 上 述 问题 59 。 

定义 3-4(ORAM KH) 用 户 的 输入 序列 了: 定义 为 一 组 输入 (ol 02 0,2. 

用 户 的 输入 o: 代表 用 户 的 操作 类 型 操作 数据 内 容 和 操作 地 址 ,表示 为 0= (op, data， 
i). “4 op 是 读 时 ,op 一 read,data 一 包 ; 当 op 是 写 时 ,op= write. data 是 用 户 写 入 的 明文 
内 容 。 
访问 模式 AQO : 对 于 用 户 发 起 的 一 个 输入 序列 Y= Co 0:0) ,假设 经 过 翻译 后 ， 
在 服务 器 实际 实施 的 序列 为 Y=(O, Osn) AORT Y 中 各 输入 的 访问 地 址 i 
以 及 Y 是 读 还 是 写 。 当 操作 是 写 时 ,A(Y) 还 记录 了 用 户 希 望 服务 器 写 和 人 的 内 容 。 具 体 地 ， 
A(Y)=( (op; ,Edataı +1), (ope | Edataz ,iz),…,(opn s Edatam sim) ) , Ft Edata 是 从 服务 器 
的 角度 写 和 人 的 密 文 内 容 ; 当 操作 是 读 时 ,Edata 一 纪 。 

如 果 对 于 系统 中 任意 两 个 输入 序列 Y 和 Y" ,从 服务 器 的 角度 来 看 ,访问 模式 A(Y) 和 
A(Y“ ) 是 不 可 区 分 的 , 则 认为 这 个 系统 是 一 个 ORAM 系统 。 

ORAM 的 基本 解决 思想 是 : 设计 一 种 转换 协议 ,将 1 次 访问 转换 为 k 次 访问 ,从 而 保 
证 两 组 访问 经 过 转换 之 后 无 法 区 分 。 许 多 学 者 5 都 在 ORAM 上 展开 了 深入 的 研究 , 致 
力 于 降低 k 的 大 小 ,其 中 文献 L[16] 提 出 的 方案 高 效 、 简 洁 , 是 当前 较 好 的 一 种 ORAM 方案 。 
该 方案 的 基本 思想 是 : 将 服务 器 中 的 数据 集 以 树 的 形式 进行 组 织 , 而 任意 一 次 读 写 都 被 转 
换 为 从 根 节 点 到 叶子 节点 的 整 条 路 径 的 一 次 读 写 。 此 外 ,还 有 学 者 在 Amazon 云 存储 上 实 
BLT ORAM 系统 09 ,实验 表明 ,在 大 部 分 典型 应 用 场景 下 ,可 以 以 数 十 倍 或 更 小 的 通信 代 
价 来 实现 ORAM。 虽 然 业界 对 这 一 效率 仍 有 一 些 不 同意 见 29 ,但 是 我 们 认为 , 随 着 计算 机 
网 络 和 硬件 技术 的 发 展 ,ORAM 技术 在 某 些 对 实时 性 要 求 不 高 且 访问 隐秘 性 要 求 较 高 的 应 
用 场合 是 可 以 实用 化 的 。 


3.3 ”对称 密 文 检索 


3.3.1 概述 


在 对 称 密 文 检索 方案 中 ,数据 所 有 者 和 数据 检索 者 为 同一 方 。 该 场景 适用 于 大 部 分 第 
三 方 存储 ,也 是 近 几 年 本 领域 的 研究 热点 。 一 个 典型 的 对 称 密 文 检索 方案 包括 如 下 算法 : 

COD Setup 算法 。 该 算法 由 数据 所 有 者 执行 ,生成 用 于 加 密 数据 和 索引 的 密 钥 。 

(2) BuildIndex 算法 。 该 算法 由 数据 所 有 者 执行 ,根据 数据 内 容 建 立 索 引 , 并 将 加 密 后 
的 索引 和 数据 本 身上 传 到 服务 器 。 

(3) GenTrapdoor 算法 。 该 算法 由 数据 所 有 者 执行 ,根据 检索 条 件 生成 相应 的 陷 门 (又 
称 搜索 凭证 ) ,然后 将 其 发 送 给 服务 器 。 

(A) Search 算法 。 该 算法 由 服务 器 执行 ,将 接收 到 的 陷 门 和 本 地 存储 的 密 文 索引 作为 
输入 ,并 进行 协议 所 预 设 的 计算 ,最 后 输出 满足 条 件 的 密 文 结果 。 
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对 称 密 文 检索 的 核心 与 基础 部 分 是 单 关键 词 检索 。 目 前 ,SSE 可 根据 检索 机 制 的 不 同 
大 致 分 为 三 大 类 : 基于 全 文 扫描 的 方法 、 基 于 文档 -关键 词 索 引 的 方法 以 及 基于 关键 词 -文档 
索引 的 方法 。 

在 单 关 键 词 SSE 的 基础 上 ,人 们 更 为 深入 地 研究 了 多 关键 词 检索 。 本 节 首 先 介绍 3 类 
SSE 方案 ,然后 介绍 其 在 多 关键 词 检 索 、 模 糊 检 索 、Top-k 检索 .前 向 安全 检索 等 领域 的 进 
展 ,最 后 对 上 述 方法 进行 总 结 。 

3.3.2 基于 全 文 扫描 的 方案 

最 早 的 对 称 密 文 检索 方案 由 Song 等 人 中 提出 , 它 是 一 种 基于 全 文 扫描 的 方案 。 如 
图 3-3 所 示 ,该 方案 的 核心 思想 是 : 对 文档 进行 分 组 加 密 , 然 后 将 分 组 加 密 结果 与 一 个 伪 随 
机 流 进行 异 或 得 到 最 终 用 于 检索 的 密 文 。 检 索 时 ,用 户 将 检索 关键 词 对 应 的 陷 门 发 送 给 服 


务 器 ,服务 器 对 所 有 密 文 依次 使 用 陷 门 计算 密 文 是 否 满足 预 设 的 条 件 , 若 满足 则 返回 该 文 
档 。 具 体 步 又 概述 如 下 : 


1 


w 
|i 


E,4w)) 











L; R; 
序列 密码 一 一 | 5, FS) 
Fy, 


图 3-3 基于 全 文 扫描 的 方案 示意 图 























(1) Setup 算法 。 数 据 所 有 者 生成 密 钥 & k”, BEILE S: Ss ,…,S, 伪 随 机 置换 瓦 以 
及 伪 随机 函数 下 、f。 

(2) BuildIndex 算法 。 假 设 文档 的 内 容 为 关键 词 序 列 w ,ws,… ,tw,。 对 于 关键 词 w, 
数据 所 有 者 首先 将 其 加 密 得 到 Ex Gw ,并 将 Ex (rw;) 拆 分 为 L; ALR, 两 个 部 分 ;然后 ,使 用 
伪 随 机 数 S; 计算 Fy, CSO ,其 中 二 fw LO sits EC Fa, (Si)) 与 (L;,Ri) 经 过 异 或 运算 
生成 密 文 块 C;。 

(3) GenTrapdoor 算法 。 当 需要 搜索 关键 词 w 时 ,数据 所 有 者 将 Ex Gu — CL RO VA 
k= fy (L) 发 送 给 服务 器 。 

(4) Search 算法 。 服 务 器 依次 将 密 文 C; 与 Ex (ww) 进行 异 或 运算 ,然后 判断 得 到 的 结果 
是 否 满足 (S,F(S)) 的 形式 。 如 果 满 足 , 则 说 明 匹 配 成 功 ,并 将 该 文档 返回 。 

文献 [1] 并 未 明确 定义 密 文 检索 的 安全 性 , 仅 说 明了 上 述 方法 构造 的 密 文 和 陷 门 与 伪 随 
机 数 具 有 不 可 区 分 性 。 

基于 全 文 扫描 的 方案 需要 对 每 个 密 文 块 进行 扫描 并 计算 ,在 最 坏 的 情况 下 ,检索 一 篇 文 
档 的 时 间 与 该 文档 的 长 度 呈 线性 关系 ,检索 效率 较 低 。 目 前 ,人 们 主要 集中 于 研究 基于 文 
档 -关键 词 索引 和 基于 关键 词 -文档 索引 的 密 文 关 键 词 检索 方案 ,将 索引 从 密 文 中 独立 出 来 ， 
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即 数据 本 身 可 以 采用 任意 加 密 算法 加 密 ,检索 功能 由 索引 实现 。 下 面 对 这 两 类 方案 进行 详 
细 介 绍 。 


3.3.3 基于 文档 -关键 词 索 引 的 方案 


基于 文档 -关键 词 索引 的 密 文 检索 方案 的 核心 思路 是 为 每 篇 文档 建立 单独 的 索引 , 且 服 
务 器 在 检索 时 需要 遍历 全 部 索引 ,因此 ,这 类 方案 的 检索 时 间 复 杂 度 与 文档 数目 成 正比 。 本 
节 分 别 介绍 基于 布 隆 过 滤器 (Bloom Filter, BF)?" 的 方案 s 和 基于 掩 码 技术 的 方案 ei. A 
体内 容 可 参阅 文献 [21,22]。 

布 隆 过 滤器 利用 位 数组 表示 集合 ,并 可 以 快速 判断 一 个 元 素 是 否 属于 该 集合 。 记 位 数 
BIS IE BEA m BAW SS Un ,zs，… ,Xx,)。 首 先 , 构 造 各 位 置 均 为 0 的 初始 数组 BF ,并 选 
Ht k A Hash RŽ hy she tt ,hi ,这些 Hash 函数 可 以 将 集合 中 的 元 素 映 射 到 位 数组 中 的 某 
一 位 。 然 后 对 于 各 元 素 zx; ,为 其 计算 & 个 Hash (A hi Cx) she Gr) sh Gr) ,并 将 位 数组 中 
TRU PEE 1. fibi m — 13.8 —2. R 3-4 给 出 了 将 元 素 xz; 和 zi 插入 位 数组 BF 的 
过 程 。 


X, x 









BF| 0 1 








o[e[o] 

















olio 


34 布 隆 过 滤器 示意 图 








当 想 要 判断 元 素 y 是 否 属于 集合 S 时 ,同样 使 用 Hash Pa h «hs ha 为 其 计算 & 个 
[B hi Cy) sho GO mu Cy) ,如 果 位 数组 BF 中 的 相应 位 置 均 为 1, 则 认为 y 是 S 中 的 元 素 。 
但 实际 上 ,由 于 Hash 函数 的 计算 结果 可 能 存在 冲突 ,y 有 可 能 并 不 属于 S。 在 图 3-4 的 例 
子 中 ,如 果 hy Cy) Sh: (a) B. hs(y) 二 h(xzj), 则 会 发 生 误 判 。 

借助 于 布 隆 过 滤器 ,人 们 提出 了 一 种 基于 文档 -关键 词 索引 的 密 文 关键 词 检 索 方案 si 。 
该 方案 使 用 布 隆 过 滤器 为 每 篇 文档 分 别 构造 索引 ,并 使 用 伪 随机 函数 为 每 个 关键 词 计算 两 
遍 伪 随机 数 ,其 一 将 关键 词 作为 输入 ,其 二 将 文档 标识 作为 输入 ,从 而 使 同一 关键 词 在 不 同 
文档 中 的 计算 结果 不 一 致 。 具 体 方案 概述 如 下 : 

COD Setup 算法 。 数 据 所 有 者 生成 x SRA i cho oe ck, 以 及 伪 随 机 函数 了。 

(2) BuildIndex 算法 。 对 于 包含 上 个 关键 词 ww eus tcu, 的 文档 也, 数据 所 有 者 首先 
为 其 生成 一 个 位 数组 BF(D) ,并 置 BFCD) 所 有 位 均 为 0。 然 后 ,对 于 每 个 关键 词 w: 

(2.1) 以 关键 词 w 作为 输入 计算 r 个 值 : zi = fOwoe kx fO m = 
f wi,k,)。 

(2.2) 以 文档 标识 id 作为 输入 计算 -个 值 : yi = f Gd, x), y: = f Gd, zs),… y, = 
flid,z,) 。 

(2.3) 将 BECDO HP yii yee ttt sy, 这 个 值 对 应 的 位 置 设 为 1, 并 对 BF(D) 进 行 随机 
填充 。 

(3) GenTrapdoor 算法 。 数 据 所 有 者 为 检索 关键 词 w 计算 > MA: ri f Ooh ,zl 二 
f Cw sha) tn aL f ws ,然后 将 这 个 值 发 送 给 服务 器 。 
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(4) Search 算法 。 根 据 陷 门 ,服务 器 为 文档 D TEE r MEL yi = f dir sys fd. 
aD ,并 检查 D 对 应 的 索引 BF(D) 中 这 -个 值 对 应 的 位 置 是 否 都 为 1。 若是 , 则 说 明文 档 D 
包含 zw ,并 将 其 返回 给 用 户 。 

上 述 方案 在 检索 判定 时 只 需要 计算 若干 次 伪 随 机 数 ,速度 比 基 于 全 文 扫描 的 方法 提高 
很 多 。 然 而 ,由 于 布 隆 过 滤器 的 特性 ,会 有 一 定 的 概率 返回 不 包含 查询 关键 词 的 文档 , 即 检 
索 结果 中 存在 元 余数 据 。 

为 了 证 明 方 案 e 的 安全 性 ,首先 形式 化 地 定义 选择 关键 词语 义 安全 IND-CKA 和 
IND2-CKA ,并 证 明 该 方案 满足 这 些 安全 性 。 由 于 IND2-CKA 的 安全 性 更 加 严格 ,因此 ,这 
里 以 介绍 IND2-CKAG9 为 主 。 简 单 来 说 ,IND2-CKA 的 含义 是 : 对 于 两 个 数据 文档 V。 和 
Vi , 仅 赁 其 密 文 索引 无 法 对 二 者 进行 区 分 。 

为 了 定义 IND2-CKA , 先 定义 一 个 游戏 。 

游戏 3-1 

(1) Setup 过 程 。 挑 战 者 C 创建 一 个 关键 词 集合 S, 并 将 其 发 送 给 敌手 A, 可 将 敌手 A 
视 作 一 个 概率 多 项 式 时 间 (PPT) 算 法 。A 选择 S 的 若干 个 子 集 ,这些 子 集 的 集合 记 为 5*， 
并 将 S* 返回 给 C。 此 处 ,一 个 子 集 可 以 看 成 一 个 数据 文档 。C 运行 Setup 算法 ,并 对 S 的 
每 个 元 素 运 行 BuildIndex 算法 ,最 后 将 全 部 索引 及 其 对 应 的 子 集 发 送 给 A。 

(2) Query HE. AF A 向 挑战 者 C 请 求 关 键 词 zx 的 陷 门 T. ,并 在 任意 索引 上 运行 
Search 算法 以 判定 该 索引 是 否 包 含 x。 

(3) Challenge 过 程 。 在 运行 若干 次 Query 之 后 ,敌手 A 从 S* 中 选择 两 个 非 空 子 集 V。 
和 Ww, 且 |(V —V1) U (Vi — V0) 150. (Vo — Vi) U (Vi 一 Vo) 中 的 任意 关键 词 均 未 被 查询 
过 。A 将 Vs MV, 发 送 给 C,C 随机 抛掷 硬币 ,并 在 V, 上 运行 BuildIndex 算法 ,最 后 将 对 
应 的 结果 发 给 A。 

(4) Response 过 程 。 敌 手 A 5 Hosp o 的 猜测 5 。 


将 上 述 游戏 的 优势 定义 为 Adv =| Pro =]. 


定义 3-5 称 一 个 SSE 方案 是 IND2-CKA 安全 的 ,如 果 任 何 敌 手 A 在 游戏 3-1 中 的 优 
势 都 是 可 忽略 的 。 

定理 3-1 如 果 函 数 了 是 一 个 伪 随 机 函数 , 则 方案 s 满足 IND2-CKA 安全 性 。 

通过 使 用 掩 码 技术 ,人 们 实现 了 一 种 误 报 率 为 0 的 密 文 关键 词 检索 方案 eo TR e 的 
核心 思路 是 : 提前 为 关键 词 集 构造 字典 ,并 由 用 户 将 其 保存 在 本 地 。 字 典 包含 2” H Gw), 
其 中 w E€ (0.1) * 代表 一 个 关键 词 ,i€E [1.27 29 rw 对 应 的 唯一 值 。 具 体 方案 概述 如 下 : 

COD Setup 算法 。 数 据 所 有 者 生成 密 钥 sr, 伪 随机 置换 函数 P 以 及 伪 随 机 函数 下 、G。 

(2) BuildIndex 算法 。 对 于 文档 DD, 数 据 所 有 者 首先 生成 一 个 长 度 为 2? 的 初始 位 串 工 ， 
其 各 位 均 为 0。 如 果 文 档 D 包含 关键 词 w;, 则 将 位 串 了 的 第 P.O 位 设 为 1, 即 ILP,(i)]==1。 
然后 ,将 工 的 各 位 1[ 门 与 其 对 应 的 掩 码 Gp cy (id) 进 行 异 或 操作 , 即 107] = IL Ge o Cid). 
最 后 ,将 位 串 工 发 送 给 服务 器 作为 索引 。 

(3) GenTrapdoor 算 法。 数据 所 有 者 为 检索 关键 词 w ÆR p =P.) A £— FG» ,并 
将 其 发 送 给 服务 器 。 

(4) Search 算法 。 服 务 器 计算 IL pIOG, Cid) ,如 果 结 果 为 1, 则 将 文档 D 返回 给 数据 所 








第 3 章 安全 检索 技术 





有 者 。 

在 上 述 方案 中 ,每 个 关键 词 对 应 位 串 中 的 某 一 位 , 且 没 有 冲突 ,因此 ,检索 结果 中 不 包含 
元 余数 据 。 

由 于 IND-CKA 和 IND2-CKA 对 陷 门 的 安全 性 并 没有 提出 明确 的 要 求 ,因此 ,人 们 又 
提出 了 基于 模拟 的 安全 性 (也 称 模拟 安全 性 ?定义 , 它 要 求 服务 器 无 法 获得 查询 结果 以 外 
的 任何 信息 。 

定义 3-6( 模 拟 安全 性 ) 假设 C, 为 服务 器 在 前 g 轮 查询 中 获得 的 信息 , 则 对 于 任意 概 
率 多 项 式 时 间 算 法 A ,任意 集合 H— (Di Di iD, sw swt ,ws} 以 及 任意 函数 f, 均 存 
在 一 个 概率 多 项 式 时 间 算 法 S, 使 得 

| PLACCO = fCH)] — PrLS({e(Di),e(D;,) (D) Dw), De) «t DG) 
= f(H)] |< negl(k) 
其 中 e(D;) 是 文档 D: 的 加 密 结果 ,D(w;) 是 包含 关键 词 rw 的 文档 集 ,k 是 安全 参数 。 


3.3.4 基于 关键 词 -文档 索引 的 方案 


在 基于 文档 -关键 词 索引 的 方案 中 ,查询 效率 与 文档 数目 呈 线 性 关系 ,导致 这 类 方案 难 
以 应 用 于 大 数据 场景 。 为 此 ,文献 [23] 提 出 了 基于 关键 词 -文档 索引 的 方案 , 它 是 密 文 检索 
领域 的 里 程 碑 式 工作 。 此 类 方案 的 索引 结构 类 似 于 搜索 引擎 倒 排 索引 ,在 初始 化 时 为 每 个 
关键 词 生成 包含 该 关键 词 的 文档 标识 集合 ,然后 加 密 存 储 这 些 索 引 结构 。 基 于 关键 词 -文档 
索引 的 方案 不 需要 逐个 检索 每 篇 文档 ,其 检索 时 间 复 杂 度 仅 与 返回 的 结果 数目 呈 线 性 关系 ， 
因此 查询 效率 远 高 于 前 两 类 方案 。 

本 节 分 别 介绍 两 种 基于 关键 词 -文档 索引 的 方案 e 和 ee。 从 构造 的 角度 ,两 者 主要 的 
不 同 之 处 在 于 服务 器 能 否 独 立地 对 文档 进行 查找 。 

方案 e 的 索引 包括 一 个 数组 A 以 及 一 个 查找 表 工 。 其 核心 思路 是 首先 为 包含 关键 词 
w 的 第 j 篇 文档 构造 节点 Ni ,此 节点 包含 该 文档 的 标识 、 下 一 个 节点 的 加 密 密 钥 及 其 在 
数组 A 中 的 存储 位 置 ,然后 将 此 节点 加 密 保存 在 数组 A 中 。 最 后 ,将 第 一 个 节点 Ni 的 加 
密 密 钥 以 及 存储 位 置 异 或 一 个 掩 码 后 存储 在 查找 表 T 中 。 检 索 时 ,服务 器 首先 通过 查找 表 
本 找到 检索 关键 词 对 应 的 第 一 个 节点 的 信息 ,然后 对 数组 A 进行 查找 和 解密 ,直到 获得 检 
索 关键 词 对 应 的 最 后 一 个 节点 。 方 案 & 概述 如 下 : 

(1) Setup 算法 。 数 据 所 有 者 生成 密 钥 Ki Ko, Ka ,对 称 加 密 算 法 Enc, 伪 随机 置换 px 
以 及 伪 随 机 函数 f。 

(2) BuildIndex 算法 。 给 定 文档 集合 D, 数 据 所 有 者 首先 对 其 进行 分 词 得 到 关键 词 集 
合 OCD) ,并 为 每 个 关键 词 wwE6(D) 生 成 所 有 包含 该 关键 词 的 文档 集合 DCw;)。 然 后 ,初始 
化 计数 器 ctr= 1. BH A 以 及 查找 表 工 。 对 于 各 关键 词 w;(1<i16(D)1): 

(2.1) 生成 密 钥 Kio. 

(2.2) HF ISSI Dw) | 1.16 ^E REA. Ki ,然后 构造 节点 NL; =<id CD.) II 
Kij || ex, trt D> HEP dD ) 为 DCwi) 中 第 j 篇 文档 的 标识 。 最 后 ,使 用 密 钥 Kj- 
密 节 点 Ni ,并 将 其 保存 在 数组 A 的 第 pm (ctr) 个 位 置 , 即 AL gx, Cet ] — Ene, Niy) 
同时 令 ctr=ctr+1, 

(2.3) XT j— IDGoO | ,构造 节点 Ni iwp! 7 id CD; ipso? || 0* || NULLS ,使 用 密 钥 
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开 :Jpcol-i 加 密 该 节点 ,并 将 其 保存 在 数组 A 的 第 pm (ctr) 个 位 置 , 即 A Lex, (ctr)] 二 
Enck, i, a CN, pcs) ,同时 令 ctr 一 ctr 十 1。 

(2.0 置 TLxx, (wi)]= <addra (Ni) || Kio >@fx, (wi) ,其 中 addra (Nii) 为 节点 
Ni 在 数组 A 中 的 存储 位 置 。 最 后 ,对 数组 A 以 及 查找 表 芽 中 剩 下 的 0 进行 混淆 。 

(3) GenTrapdoor 算法 。 数据 所 有 者 为 检索 关键 词 w 生成 陷 门 := Cr, Gu » fr, (w))。 

(4) Search 算法 。 服 务 器 首先 根据 陷 门 :一 (Y, 刀 得 到 0— TL y). ni OAL Wit 
算 00m 18 BI <a || K'2 ,然后 使 用 K' 解 密 A[La] 保 存 的 节点 ,并 得 到 该 节点 对 应 的 文档 标识 
以 及 后 续 节 点 在 数组 A 中 的 存储 位 置 和 解密 密 钥 ,从 而 依次 获得 其 后 续 节点 的 内 容 。 最 后 
服务 器 将 检索 到 的 文档 标识 返回 给 数据 所 有 者 。 

Jr && e, 的 索引 由 一 个 查找 表 工 构成 ,对 于 包含 关键 词 rw 的 第 j 篇 文档 ,其 在 查找 表 中 
的 存储 位 置 由 zw 和 j 决定 ,存储 内 容 为 该 文档 的 标识 。 方 案 es 概述 如 下 : 

(1) Setup 算法 。 数 据 所 有 者 生成 密 钥 K 以 及 伪 随 机 置换 x。 

(2) BuildIndex 算法 。 给 定 文档 集合 D, 数 据 所 有 者 首先 对 其 进行 分 词 得 到 关键 词 集 
合 6(D) ,并 为 每 个 关键 词 w;E6(D) 生 成 所 有 包含 该 关键 词 的 文档 集合 D(rw)。 然 后 ,初始 
化 查找 表 I XF 1i [900 | 1j | DG) | i id CD; HE DCwi) 中 第 j 个 文档 的 标 
识 , 置 Irc (wi | 1 站 ==id(D;,)。 最 后 ,对 查找 表 了 中 剩 下 的 0 进行 混淆 。 

(3) GenTrapdoor 算法 。 对 于 计数 器 c 二 1,2,3,… ,数据 所 有 者 为 检索 关键 词 w 生成 
KIT t =a Gol le. 

(A) Search 算法 。 服 务 器 依次 查找 It ] 对 应 的 文档 标识 并 将 其 返回 给 客户 端 。 

由 于 倒 排 索引 的 特性 ,方案 e 和 方案 es 均 可 以 直接 检索 到 包含 某 个 关键 词 的 文档 , 因 
此 ,在 时 间 、 空 间 方面 都 具有 很 高 的 效率 。 两 个 方案 的 不 同 之 处 在 于 ,在 方案 s 中 ,检索 时 
数据 所 有 者 只 需 将 检索 关键 词 对 应 的 第 一 个 节点 的 相关 信息 发 送 给 服务 器 ,此 后 服务 器 可 
以 独立 地 找到 后 续 节 点 并 进行 解密 ;而 在 方案 es 中 ,数据 所 有 者 需要 按照 出 现 次 序 发 送 多 
个 查询 条 件 ,这 主要 是 为 了 在 静态 条 件 下 隐藏 这 些 文档 之 间 的 关系 。 

在 3.3.3 节 中 ,已 经 介绍 了 两 种 安全 性 定义 ,但 其 存在 较 大 不 足 , 即 使 是 不 安全 的 方案 
也 可 以 被 证 明 满 足 这 两 种 安全 性 定义 。 这 里 主要 闻 述 IND2-CKA 安全 性 的 缺陷 ,基于 模拟 
的 安全 性 分 析 详 见 文 献 [23]。 

首先 构造 一 个 密 文 检索 方案 ,并 说 明 该 方案 虽然 满足 IND2-CKA 安全 性 ,但 实际 上 是 
并 不 安全 的 ,然后 提出 新 的 安全 性 定义 。 

id A= (wi we ot ,twa) 为 关键 词 集合 ,为 每 篇 文档 分 别 构造 索引 ,具体 步骤 如 下 : 

CD Setup 算法 。 数 据 所 有 者 生成 密 钥 K 以 及 伪 随 机 管 换 函数 x。 

(2) BuildIndex 算法 。 假 设 数 据 所 有 者 为 文档 集合 中 的 第 ctr 篇 文档 D 构造 索引 , 首 
先 初始 化 一 个 长 度 为 d 的 数组 A 。 然 后 ,对 于 关键 词 集合 中 的 各 关键 词 w; CA. WR ICY D 
包含 关键 词 w;, 则 执行 如 下 操作 : 

(2.1) 计算 r=xx Gwil | ctr)。 

(2.2) 将 A[ 门 设置 为 rO Ca |10) ,并 在 数组 A 中 没有 存储 数据 的 位 置 填充 随机 串 。 

(3) GenTrapdoor 算法 。 数 据 所 有 者 为 检索 关键 词 w ERK rim atx Ge || Dn = 
zy Cw || 2),… sr, =ar Cw || 0D ,其 中 为 文档 集合 中 的 文档 总 数 , 即 每 篇 文档 对 应 的 陷 门 不 同 。 

(4) Search 算法 。 对 于 文档 D 对 应 的 数组 A ,如 果 存 在 1 三 三 1A|, 使 得 ALD; Or. ng 
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JA k 位 均 为 0, 则 输出 1; 否 则 ,输出 0。 

定理 3-2 ”如果 是 伪 随 机 置换 函数 , 则 上 述 方案 满足 IND2-CKA 安全 性 。 

显然 ,虽然 上 述 方案 可 以 满足 IND2-CKA 安全 性 ,但 是 由 于 Search 算法 直接 暴露 了 关 
键 词 w 的 明文 内 容 , 该 方案 实际 上 是 不 安全 的 。 究 其 根本 原因 ,在 于 IND2-CKA 安全 性 只 
考虑 了 索引 和 陷 门 孤立 的 安全 性 ,而 检索 操作 需要 将 索引 和 陷 门 二 者 同时 作为 输入 ,还 需要 
考虑 二 者 结合 的 安全 性 。 

为 此 ,人 们 提出 了 4 个 新 的 安全 性 定义 : 非 适 应 性 语义 安全 NS、 非 适应 性 不 可 区 分 性 
NI\ 适 应 性 语义 安全 AS、 适 应 性 不 可 区 分 性 AL, 它们 的 安全 级 别 关系 是 NS= NI AD 
AS。 本 节 主 要 介绍 非 适应 性 语义 安全 和 适应 性 语义 安全 。 

在 描述 具体 的 安全 性 定义 之 前 , 先 介绍 几 个 辅助 概念 ,主要 包括 查询 历史 (history) \ 访 
问 模式 (access pattern) ,搜索 模式 (search pattern) 以 及 轨迹 (trace) 。 

定义 3-7( 查 询 历 史 ) ”一 个 查询 历史 H 包括 两 个 组 成 部 分 : 被 查询 的 文档 集合 D= 
(Di «D; ,…,D,) 以 及 查询 关键 词 列 表 W= Cw, seo et) BD H=(D.W). 

定义 3-8 (访问 模 式 ) ”一 个 查询 历史 H 的 访问 模式 a 是 所 有 查询 返回 的 文档 列表 
a(H)=(D(w) ,Dw,),*,D(w,))。 

定义 3-9( 搜 索 模式 ) 一 个 查询 历史 H 的 搜索 模式 8 是 一 个 对 称 的 gXg 矩阵 ,表示 两 
次 查询 的 关键 词 是 否 相等 。 当 且 仅 当 vw; =w; tM BP OCH) i Tj 列 的 元 素 为 1, 即 6 
CAD (i.j J=1; FM 0C ED[i.j1—0. 

定义 3-10( 轨 迹 ) 一 个 查询 历史 H 的 轨迹 上 包括 文档 集合 中 每 篇 文档 的 长 度 以 及 访 
问 模式 和 搜索 模式 : :(H)=(|Di|,|D;|,…,|D,|,a(H),6(H))。 

接 下 来 ,分 别 给 出 非 适应 性 语义 安全 和 适应 性 语义 安全 的 定义 。 

定义 3-11 ( 非 适应 性 语义 安全 ) dE Real 是 如 下 的 一 个 游戏 过 程 : 

(1) 挑战 者 运行 Setup 算法 获得 密 钥 。 

(2) 敌手 选择 查询 历史 H=(D.W). 

(3) 挑战 者 对 文档 集合 D 加 密 得 到 密 文 LD], 并 运行 BuildIndex 算法 得 到 索引 I. [s] 
时 ,运行 GenTrapdoor 算法 为 查询 关键 词 列表 W 中 的 各 关键 词 rw 生成 陷 门 1;。 

(4) 输出 CT,[LD] it ente 

i Sim 是 如 下 的 一 个 模拟 过 程 ; 

CD 敌手 选择 查询 历史 H=(D,W)。 

(2) 挑战 者 根据 轨迹 CH) BE CI [D ] sti «t2 mt. 

(3) 输出 (IT,[D] ti ,tz ,… sta) o 

称 一 个 密 文 检 索 方案 是 非 适应 性 语义 安全 的 ,如 果 对 于 有 任意 多 项 式 能 力 的 敌手 , 均 存 
在 一 个 多 项 式 时 间 模 拟 算 法 ,使 得 Real 和 Sim 的 输出 结果 无 法 区 分 。 

定义 3-12( 适 应 性 语义 安全 ) E Real 是 一 个 如 下 的 游戏 过 程 : 

CD 挑战 者 运行 Setup 算法 得 到 密 钥 。 

(2) 敌手 选择 文档 集合 D. 

G) 挑战 者 对 文档 集合 D 加 密 得 到 密 文 [Dj], 并 运行 BuildIndex 算法 得 到 索引 I. 

(4) 敌手 根据 密 文 LD] 和 索引 工 选择 第 一 个 查询 关键 词 wi 。 

(5) 挑战 者 运行 GenTrapdoor 算法 生成 关键 词 rw 对 应 的 陷 门 tio 
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(6) 对 于 2<i<g: 

(6.1) 敌手 根据 LD]、T 以 及 前 i 一 1 次 的 陷 门 ,ts。，,… ,ti_1 选 择 查询 关键 词 rw 。 

(6.2) 挑战 者 运行 GenTrapdoor 算法 生成 关键 词 rw 对 应 的 陷 门 二。 

(7) B CL ED]. ,ts mte 

ik Sim 是 一 个 如 下 的 模拟 过 程 : 

(1) 敌手 选择 文档 集合 D。 

(2) 挑战 者 根据 轨迹 xD) 模 拟 生 成 密 文 LD] 以 及 索引 IT。 

(3) 敌手 根据 密 文 LD] 和 索引 工 选择 第 一 个 查询 关键 词 wi 。 

(4) 挑战 者 根据 轨迹 EOD oos ) 模 拟 生 成 陷 门 。 

(5) 对 于 2<i<g: 

(5.1) 敌手 根据 [LD]、T 以 及 前 i 一 1 次 的 陷 门 6 to ,… ,ti-1 选 择 查询 关键 词 w o 

(5.2) 挑战 者 根据 轨迹 OD ous sw n ,wo;) 模 拟 生 成 陷 门 tio 

(6) 输出 CT,[LD] t tle 

如 果 对 于 有 任意 多 项 式 能 力 的 敌手 , 均 存在 一 个 多 项 式 时 间 模 拟 算法 ,使 得 Real 和 
Sim 的 输出 结果 无 法 区 分 , 则 称 密 文 检索 方案 是 适应 性 语义 安全 的 。 

上 述 两 种 安全 性 说 明了 仅 凭 轨迹 信息 就 能 模拟 出 与 原始 方案 不 可 区 分 的 方案 ,这 表明 
轨迹 是 密 文 检索 方案 唯一 泄露 的 信息 。 非 适应 性 安全 定义 和 适应 性 安全 定义 的 主要 区 别 在 
于 敌手 的 攻击 能 力 , 其 中 前 者 的 背景 知识 是 敌手 一 次 性 选 定 的 ,而 后 者 的 敌手 可 以 根据 以 往 
的 背景 知识 选择 下 一 次 需要 获得 的 背景 知识 。 在 本 节 介 绍 的 两 个 方案 中 ,方案 & 满足 非 适 
应 性 语义 安全 ,方案 es 满足 适应 性 语义 安全 。 

3.3.3 节 和 3.3.4 节 分 别 描述 了 密 文 检 索 的 两 种 基本 构 型 ,当前 绝 大 部 分 对 密 文 检索 
的 进一步 研究 都 可 以 归 类 到 其 中 之 一 ,下 面 将 进行 分 类 介绍 。 


3.3.5 扩展 1: 多 关键 词 SSE 检索 


在 实际 应 用 场景 中 ,用 户 通 常 以 多 个 关键 词 作为 检索 条 件 。 为 此 ,本 节 将 分 别 介绍 基于 
文档 -关键 词 索引 的 多 关键 词 检 索 方案 e 和 基于 关键 词 -文档 索引 的 多 关键 词 检索 方案 e 。 
具体 可 参阅 文献 [24 ,25]。 

方案 & 借助 布 隆 过 滤器 为 每 篇 文档 分 别 构造 索引 ,其 具体 步骤 如 下 : 

COD Setup 算法 。 数 据 所 有 者 生成 密 钥 SK= Us ,ks，,…,k,) ,并 选择 一 个 伪 随 机 函数 f. 

(2) BuildIndex 算法 。 数 据 所 有 者 首先 使 用 密 钥 SK 和 伪 随机 函数 f 为 文档 D 构造 布 
隆 过 滤器 索引 了 T, 然 后 为 其 初始 化 一 个 与 1 长 度 相 等 的 位 串 , 并 以 概率 p 将 7 的 各 位 置 1 。 
最 后 通过 将 1 和 进行 按 位 或 操作 ,得 到 索引 了。 

(3) GenTrapdoor 算法 。 数 据 所 有 者 对 检索 关键 词 ww 和 es 计算 2s 个 伪 随 机 数 (ki ， 
ws sf Us sw) e fU, sw ) s f Us sw) s f Ue swz) ett f Ce, sw) ,然后 从 中 随机 选取 1 二 2s 
个 值 发 送 给 服务 器 。 

(4) Search 算法 。 服 务 器 测试 索引 了 中 这 + 个 值 对 应 的 位 置 是 否 都 为 1, 若是 , 则 返回 
文档 D. 

由 于 在 方案 e 中 ,用 户 对 索引 进行 了 随机 化 处 理 , 并 在 检索 时 仅 挑 选 部 分 伪 随 机 数 作 
为 查询 陷 门 ,因此 ,该 方案 可 以 隐藏 用 户 数据 的 统计 信息 ,但 同时 也 在 检索 结果 中 引入 了 更 
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多 的 元 余数 据 。 

方案 e, 的 核心 思想 : 首先 获取 一 个 结果 数目 较 少 的 子 查询 ,然后 根据 字典 索引 过 滤 该 
子 查询 ,从 而 获取 最 终 的 查询 结果 。 具 体 地 ,服务 器 使 用 伪 随 机 函数 将 每 个 关键 词 ww 映射 
到 一 对 值 (A;,B;) , 当 用 户 将 某 个 包含 关键 词 w; 的 文档 D, 上 传 到 服务 器 时 ,同时 在 表 工 中 
dfi A E. XA! TERR XSet 中 插入 值 g%s ,其 中 X, 是 随机 化 后 的 文档 标识 。 当 需要 检索 同 
时 含有 关键 词 w， 和 rs 的 文档 时 ,用 户 发 送 R= 二 gh 到 服务 器 ,服务 器 对 于 表 醋 中 ww 对 
应 的 所 有 检索 结果 s R 是 否 存 在 于 表 XSet 中 ,若是 , 则 证 明 该 检索 结果 同时 也 含有 
ws。 方案 e; 的 详细 步骤 如 下 : 

COD Setup 算法 。 数 据 所 有 者 生成 密 钥 ks ex shi hz» PAB BL PAR F, H , VA BE PIN f 
密 算法 Enc, Dec, 

(2) BuildIndex 算法 。 数 据 所 有 者 首先 对 文档 集合 进行 分 词 , 然 后 建立 两 个 空 的 索引 
数组 XSet 和 了 ,其 中 T[w;] 由 关键 词 ww 索引 。 对 于 每 个 关键 词 ws 

(2.1) 计算 K.=F(ks ,wi)。 

(2.2) 对 于 包含 关键 字 w: 的 每 篇 文档 Dn o 

(2.2.1) 将 rw 使 用 伪 随 机 函数 映射 到 一 对 值 (A;,B;):A; 二 HG(kz,wi),B;=H(kx， 
wi) ,并 计算 文档 标识 id(D,) 的 喻 希 值 以 及 密 文 : X, =H (ki,id(D,)),Y, = Enc(K,, id 
CD). 

(2.2.2) TER T[w;] 中 插入 值 (Y, XA; 0 ,在 表 XSet 中 插入 值 gs 

(3) GenTrapdoor 算法 。 当 需要 检索 同时 含有 关键 词 w 和 we 的 文档 时 ,用 户 将 R= 
gan KIS BIR A 

(4) Search 算法 。 服 务 器 首先 找到 表 T 中 所 有 对 应 ws 的 (Y,,X,A7!), 然 后 计算 
RYA 是否 存 在 于 表 XSet 中 。 若 是 , 则 证 明 该 检索 结果 同时 也 含有 we ,将 其 对 应 的 Y, 返 
回 给 用 户 。 

现在 来 考虑 方案 e 的 正确 性 。 对 于 表 工 中 的 某 个 值 * 王 X,Ai ,表明 文档 D, 包含 关键 
词 we, ;而 对 于 表 XSet 中 的 某 个 值 g Xn"? , 则 表明 文档 D, 包含 关键 词 w,。 通 过 计算 Re, WR 
该 值 存在 于 表 XSet 中 , 则 证 明文 档 D, 既 包 含 wi 又 包含 w. 

只 要 注意 选取 出 现 频次 足够 稀少 的 关键 词 作为 查询 * 锚 点 ”( 即 上 文中 的 关键 词 rw ) , 方 
案 es 的 查询 效率 是 很 高 的 。 以 双关 键 字 查询 {wi s wa } 为 例 , 求 交集 方法 的 复杂 度 至 少 为 
OC| D Cun) | 十 |DGes )|)( 如 果 文 档 标识 是 无 序 保存 的 ,复杂 度 还 会 更 高 ) ,而 方案 e 的 复杂 
RE OCIDGo )1)。 在 安全 性 方面 ,该 方案 存在 细微 的 隐私 泄露 : 如 果 曾 经 检索 过 {wi， 
ws) ,而 后 又 检索 过 {ws ,zz } ,那么 会 泄露 Dow) ND Cw). AF D€DGo)f1DGo). 
两 个 查询 得 到 的 计算 结果 是 相同 的 。 但 是 相对 于 本 方案 对 多 关键 字 检 索 提升 的 效率 而 言 ， 
这 样 的 泄露 是 可 接受 的 。 

考虑 到 实际 场景 ,用 户 的 搜索 条 件 中 每 个 关键 词 的 出 现 频次 都 很 高 的 情形 也 是 很 常见 
的 (例如 搜索 “男装 ”十 “春季 ”) ,这 时 方案 es 将 退化 到 最 坏 情况 。 对 此 ,文献 L[26] 对 方案 ez 
进行 了 优化 ,其 基本 思路 是 选择 高 词 频 的 关键 词 进行 组 合 . 并 人 允许 在 组 合 之 后 的 关键 词 索引 
上 继续 按照 方案 e, 进行 复合 查询 。 在 参数 选择 合适 的 情况 下 ,该 方案 有 效 支持 的 数据 量 可 
以 比方 案 es 再 提升 一 个 数量 级 ,付出 的 代价 是 空间 占用 率 和 数据 初始 化 时 间 均 有 不 同 程度 
的 增加 。 
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3.3.6 扩展 2: 模糊 检索 .Top-k 检索 、 多 用 户 SSE 


l. 模糊 检索 

文献 [27] 首 次 提出 针对 密 文 数据 的 模糊 关键 词 查 询 : 当 用 户 的 检索 条 件 与 预先 定义 的 
关键 词 完全 匹配 时 ,服务 器 返回 匹配 的 文档 ;否则 ,服务 器 基于 关键 词 相似 度 返 回 最 可 能 匹 
配 的 文档 。 该 方案 利用 编辑 距离 来 量化 关键 词 相 似 度 ,并 使 用 通配符 描述 相同 位 置 的 编辑 
操作 ,从 而 为 各 关键 词 构造 相应 的 模糊 关键 词 集合 。 该 方案 的 不 足 之 处 在 于 文档 索引 需要 
较 多 的 存储 空间 ,并 且 服 务 器 可 以 根据 模糊 关键 词 集合 大 小 推测 出 其 对 应 的 关键 词 长 度 , 以 
及 各 关键 词 之 间 的 相似 度 等 统计 信息 。 随 后 ,文献 [28] 提 出 利用 词典 来 限制 模糊 关键 词 集 
合 的 大 小 , 即 模糊 关键 词 集合 中 的 关键 词 必须 是 字典 中 有 意义 的 词汇 ,从 而 减少 无 意义 的 候 
选项 ,缩减 文档 索引 所 需要 的 存储 空间 ,同时 提高 检索 效率 。 此 外 ,文献 [29] 通 过 树 结构 归 
结 候选 模糊 关键 词 ,进一步 加 快 了 寻找 候选 词 的 过 程 。 

基于 局 部 敏感 哈 希 (Locality-Sensitive Hashing, LSHO ER ,文献 [30] 设 计 了 一 种 支持 
近似 检索 的 密 文 检索 方案 。LSH 的 特点 在 于 ,其 将 相似 的 关键 词 以 较 高 概率 分 配 到 相同 的 
桶 中 ,而 不 相似 的 关键 词 被 分 配 到 相同 桶 中 的 概率 较 低 。 不 需要 构造 模糊 关键 词 集合 ,该 方 
案 可 以 直接 通过 LSH 值 来 筛选 检索 结果 。 上 述 方案 的 缺陷 在 于 ,LSH 只 能 处 理 输入 错误 
这 种 近似 查询 ,对 通配符 等 模糊 查询 不 奏效 。 

在 3.3.5 节 方案 e, 的 基础 上 ,文献 [31] 提 出 了 一 种 高 效 的 模糊 搜索 方法 ,其 允许 检索 关键 
词 中 包含 通配符 。 该 方案 的 思想 是 : 将 文档 集合 转换 为 字符 串 集合 的 形式 ,并 将 模糊 搜索 条 
件 g 转换 为 字符 串 -距离 搜索 TU) = (kg, CA; ,kg ),…,(A kg))。 例 如 搜索 “* system * " 
等 价 于 搜索 “sys” 和 "tem” 且 dist(sys,tem) 王 3, 即 TC * system * )= (sys, (3,tem)); 搜索 
“x struction” t ffr FIRR“ tion" truc” fl" str" H. dist(tion,truc) 一 一 4,dist(tionystr) 一 一 5， 
即 TC * struction) 一 (tion,( 一 4,truc),( 一 5,str))。 该 方案 的 具体 步骤 如 下 : 

(D Setup 算法 。 数 据 所 有 者 生成 密 钥 ks ex ski. PBL PAB 下 上、 互 , 以 及 对 称 加 解密 算 
法 Enc, Dec, 

(2) BuildIndex 算法 。 首 先 ,数据 所 有 者 对 文档 集合 进行 分 词 , 得 到 字符 串 集 合 
Cind; pos; ,kgi)i=1 ,其 中 ind; 为 文档 标识 ,pos; 为 字符 串 kg; 在 文档 ind; 的 位 置 。 然 后 , 构 
造 两 个 空 的 索引 数组 XSet 和 工 。 对 于 每 个 字符 串 kgEKG, 其 中 KG 为 字符 串 集合 。 

(2.1) 计算 strap=F (ks kg) IG, ske sku) = (F (strap. 1).F(strap,2).F(strap.3)). 

(2.2) 设置 计数 器 c 一 1。 

(2.3) 对 于 包含 字符 串 kg 的 每 篇 文档 ind: 

(2.3.1) 计算 e=Enc(k, -ind) . xind — H Ge; ind). B— H (kx kg). 

(2.3.2) 计算 xtag— g^ 9" ,并 将 其 插入 表 XSet 中 。 

(2.3.3) 计算 A. 二 HH(kz,0),C. 一 HH(k,,c), 在 表 T[kgj] 中 插入 值 (e,xind * A7! , xind™ + 
Ln T 

(2.3.9.cT--à 

(3) GenTrapdoor 算法 。 当 检索 条 件 为 T(g) 二 (kgi,(As ,kgz)) 时 ,数据 所 有 者 首先 计 
算 strap= F (Rs. kg). (kıs kes ky) = CF (strap. 1), F (strap. 2), F (strap. 3)), xtrap = 
gtk 。 然 后 ,对 于 < 一 1,2,3,…, 计 算 A. = H Gig c), C. = H Cku, c), xtoken, = 
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xtrapae €, Bn f stag.A; 和 xtoken, . xtoken; ,… 发 送 给 服务 器 。 
(4) Search 算法 。 服 务 器 首先 找到 表 T HAXE kgi AY Ce. xind * Az’, xind?* + 
C7) ,c=1,2,3，…, 然 后 判断 xtoken, 6097 4097 mI c 是 否 存在 于 表 XSet 中 ,若是 , 则 将 


e 返 回 给 客户 端 。 
综合 考虑 安全 性 和 效率 ,我 们 认为 该 方案 是 目前 相对 较 好 的 一 种 模糊 检索 实现 方案 。 
2. Top-k 检索 


Top-k 检索 用 于 对 搜索 结果 进行 排序 ,其 与 明文 的 搜索 引擎 类 似 , 可 以 按照 文档 与 搜索 
关键 字 的 相关 度 给 出 前 & 个 搜索 结果 。 需 要 注意 的 是 ,按照 密 文 检索 的 问题 背景 ( 即 服务 器 
不 了 解数 据 的 真实 内 容 ) ,要 求 服务 器 对 检索 结果 进行 排序 这 一 需求 本 身 就 造成 了 隐私 
泄露 。 

文献 [32] 的 排序 标准 是 文档 中 所 包含 的 检索 关键 词 数目 。 具 体 地 ,用 户 为 每 篇 文档 也 
构造 一 个 位 串 工 , 且 工 中 各 位 分 别 对 应 一 个 关键 词 wwi ,如果 w;ED, 则 将 I 中 ww; 对 应 的 位 置 
设 为 1。 检索 时 ,用 户 构造 一 个 与 工 长 度 相等 的 位 串 工 ,并 将 T 中 检索 关键 词 对 应 的 位 置 设 
为 1。 随 后 ,服务 器 通过 计算 内 积 工 工 来 对 文档 进行 排序 。 由 于 上 述 方案 的 排序 标准 并 不 
准确 ,因此 ,研究 者 * 汪 普遍 借鉴 明文 关键 词 检 索 中 常用 的 TF-IDF 准则 来 评判 文档 的 相关 
性 。TF-IDF 准则 认为 对 一 篇 文档 最 有 意义 的 应 该 是 在 该 文档 中 出 现 频 率 较 高 , 且 在 整个 
文档 集合 中 出 现 频 率 较 低 的 关键 词 。 

3. 多 用 户 SSE 

一 般 SSE 中 发 起 检索 的 用 户 和 数据 所 有 者 是 同一 人 ,但 是 实际 场景 中 可 能 有 多 个 用 户 
有 检索 需求 ,而 他 们 不 具备 主 密 钥 ,为 此 ,需要 设计 一 种 解决 方案 让 他 们 也 有 能 力 生成 检索 
陷 门 。 

一 种 选择 是 建立 一 个 复杂 的 在 线 的 第 三 方 翻译 器 ,将 其 他 用 户 发 起 的 检索 请 求 翻 译 为 
对 目标 数据 库 的 查询 陷 门 ; 另 一 种 选择 是 基于 广播 加 密 技 术 将 SSE 扩展 到 多 个 检索 用 户 。 
下 面 介绍 如 何 使 用 广播 加 密实 现 多 用 户 SSE, 具 体 可 参考 文献 [23]。 

假设 已 有 一 套 密 文 检索 算法 ,包括 SSE. Gen, SSE. Enc, SSE. Trpdr, SSE. Search ,以 及 
一 套 广播 加 密 算法 ,包括 BE. Gen, BE. Enc, BE. Add, BE. Dec。 多 用 户 方案 的 具体 步骤 如 
下 (D 为 文档 集合 ,G 为 授权 用 户 集合 ) : 

(1) Setup(1): 生成 密 钥 KSSE. Gen (1+) 以 及 mk 一 BE. Gen CI ,输出 Ko = 
(K mk), 

(2) BuildIndexC Ko G.D): 3E $ECI 2 «—SSE. Enck(D) 以 及 sts - BE. Enc( mk. G. 7). 


eb r2-40,1),4 stor MEL c ssts esto). 

(3) AddUser( Ko. sto .U) : 计算 uk; BE. Add(mk.U) ,并 输出 Ky — (K ,uku 72. 

(4) GenTrapdoor(Ky.w): 如 果 BE. DecCuko sts) = | , 则 输出 上 ;否则 ,计算 -一 
BE. Dec(uky ,sts) 以 及 +t SSE. Trpdrk (w) ,输出 £79, 00 ,其 中 为 伪 随 机 置换 。 

(5) Search(sts ,1,1): 计算 r<BE. DecCuks ,sts) 以 及 1 47! GO ,输出 X<-SSE. Search 
a 

总 的 来 说 ,上 述 过 程 只 是 在 为 用 户 生成 陷 门 时 通过 广播 加 密 对 主 密 钥 实现 了 简单 的 权 
限 控 制 ,完全 可 以 用 其 他 的 密 文 访问 控制 或 密 钥 管理 技术 代替 。 


k 大 数据 安全 与 隐私 保护 








3.3.7 扩展 3: 前 向 安全 性 扩展 


人 们 感 兴 趣 的 另 一 类 安全 性 是 前 向 安全 (forward privacy) ,或 称 动态 安全 , 它 是 指 当 系 
统 中 新 增加 一 个 密 文 数据 时 ,敌手 无 法 判断 该 数据 是 否 满足 此 前 的 某 次 查询 条 件 。 文 献 
[36] 提出 ,如 果 一 个 密 文 检索 方案 不 满足 前 向 安全 , 则 只 需要 插入 大 约 10 个 新 的 密 文 数据 
即 可 判断 出 某 次 查询 对 应 的 关键 词 明 文 。 换 言 之 ,一 个 能 够 主动 上 传 指 定数 据 的 敌手 可 以 
对 任何 非 前 向 安全 的 SSE 方案 形成 破解 查询 明文 攻击 。 

通过 使 用 分 层 数据 结构 来 存储 文档 -关键 词 对 ,文献 [37] 提 出 了 一 种 满足 前 向 安全 的 
SSE 方案 。 设 文档 集合 共有 N 个 文档 -关键 词 对 ,将 所 有 文档 -关键 词 对 保存 在 一 个 层 数 为 
lgN 十 1 的 分 层 数 据 结构 中 ,第 1 层 对 应 查找 表 T ,该 查找 表 最 多 包含 2' 个 条 目 , 每 个 条 目 
又 包含 关键 词 ,文档 标识 ,操作 类 型 (插入 add 或 者 删除 del) 、 计 数 器 ent 等 信息 。 同 时 ,每 
层 T, 对 应 一 个 密 钥 A ,并 使 用 该 密 钥 分 别 加 密 此 层 中 的 条 目 信息 。 上 有 具体 步骤 如 下 : 

COD Setup 算法 。 数 据 所 有 者 生成 密 钥 esk, 伪 随机 函数 PRE , 哈 希 函数 H A, DA Be Hn a 
函数 Encrypt. 

(2) Update 算法 。 假 设 数据 所 有 者 插入 或 者 删除 文档 DD ,该 文档 对 应 的 关键 词 集合 为 
w, 文 档 标 识 为 id。 对 于 任意 关键 词 wE w。 

(2.1) 如 果 T, 为 空 , 首 先生 成 新 的 密 钥 & ,然后 计算 关键 词 w 在 第 0 ZR EAT] token, = 
PRFi,(h(w)), 以 及 其 在 查找 表 中 的 关键 值 hkey= H okn, (0l | op| |0) ,最 后 计算 其 对 应 的 存 
储 内 容 cy =id® H oken, (1|lop|10) 和 cs= Encryptex (w,id,op,0),B 即 ToLhkey] 王 (ciycs)。 
其 中 op 表示 具体 的 操作 类 型 。 

(2.2) WR T, 不 为 空 , 则 数据 所 有 者 首先 构造 一 个 存储 空间 B, 其 只 包含 当前 要 插入 
的 条 目 信息 (w,id,op,cnt 二 0)。 然 后 ,找到 层 数 最 低 且 为 空 的 层 T, ,数据 所 有 者 将 前 ! 层 对 
应 的 查找 表 To. T, Tuas 下载 到 本 地 ,将 各 co 值 解密 后 加 入 到 存储 空间 B 中 。 根 据 字 母 
表 顺 序 将 B 中 的 条 目 信 息 排 序 ,对 于 任意 e==(w,id,op,cnt )EB: 如 果 。 是 第 一 个 对 于 关 
键 词 w 的 某 个 操作 , 则 将 其 更 新 为 e=(w'id,op,0) ,并 记 cnt, —0; F, e — Cw. id. op, 
cntoww 十 十 )。 最 后 ,生成 一 个 新 的 密 钥 ,并 使 用 该 密 钥 分 别 加 密 存 储 空间 B 中 的 各 条 
目 。 具 体 地 ,对 于 e==(w,id,op,cnt) EB, 首 先 计 算 关键 词 w 在 第 1 层 的 陷 门 token; = 
PRF, (hw) ) ,然后 计算 其 在 查找 表 T, 中 的 关键 值 hkey= Hass (0 | op || ent) ,最 后 计算 其 
对 应 的 存储 内 容 ci =id® H oken, A || op || ent) 和 c; =Encrypt.y (wid. op.cnt). Bl. T; hkey ]= 
(caycz)。 将 查找 表 T, 中 的 条 目 按照 关键 值 重新 排序 ,并 发 送 给 服务 器 ,随后 服务 器 将 原来 
的 查找 表 Tu ,Ti Tm. 

(3) GenTrapdoor 算法 。 假 设 检 索 关键 词 为 ww, 数据 所 有 者 分 别 计算 该 关键 词 对 应 各 
层 的 陷 门 token, = PRF;, (h G)) ,0XIlogN ,并 将 其 发 送 给 服务 器 。 

(4) Search 算法 。 服 务 器 初始 化 结果 集合 1, 对 于 token; ,0 三 /三 logN, 首 先 依 次 令 ent 二 
0,1,2,… ,计算 hkey = Haas (0 || add || cnt) ,并 得 到 id= T; [ hkey J. cı Hoken (1 || add || 
cnt) ,将 结果 加 入 到 工 中 。 然 后 依次 令 cnt 二 0,1,2,… ,计算 hkey — Hoken CO || del || cnt) ,并 
得 到 id— T, [ hkey ]. ci C Ha, (1 || del || ent) ,将 结果 从 工 中 剔除 。 最 后 , 工 中 的 元 素 即 为 包 
含 检索 关键 词 w 的 文档 标识 id. 

在 最 坏 的 情况 下 ,上 述 方案 的 查询 时 间 与 跟 检 索 关键 词 w 相关 的 条 目的 数量 呈 线 性 关 
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系 。 在 该 方案 的 基础 上 ,文献 [37] 将 检索 效率 提高 到 OCmin(a-- logN ,mlog* N}), 其 中 a 为 
检索 关键 词 被 加 入 到 集合 中 的 次 数 ,m 为 检索 结果 数目 。 

基于 RSA 算法 ,文献 [38] 提 出 了 一 种 检索 效率 为 O(a) 的 满足 前 向 安全 的 SSE 方案 。 
具体 地 ,将 包含 同一 个 关键 字 的 N 个 文档 组 成 加 密 链 表 ,服务 器 可 以 依次 使 用 公 钥 解密 链 
表 的 第 i 个 节点 进而 找到 第 i 一 1 个 节点 ,最 后 返回 所 有 N 个 结果 。 当 数据 所 有 者 需要 插入 
新 的 文档 时 , 则 使 用 RSA 私 钥 生 成 第 N 十 1 个 节点 内 容 ,插入 服务 器 数据 库 。 从 服务 器 角 
度 来 看 ,由 于 不 了 解 RSA 私 钥 ,新 插入 的 第 N 十 1 个 节点 无 法 与 前 N 个 节点 形成 联系 ,与 
一 个 随机 节点 无 法 区 分 ,因此 ,达到 了 前 向 安全 性 。 具 体 步骤 如 下 : 

COD Setup 算法 。 数 据 所 有 者 生成 公私 钥 对 PK 和 SK , 密 钥 玉 , 伪 随机 函数 FL Hs Hs. 
客户 端 数组 W ,服务 器 端 数组 To 

(2) BuildIndex 算法 。 假 设 插入 文档 id, 其 包含 关键 字 w。 数 据 所 有 者 首先 计算 Ko 
F(K,w) FFA Hb dE dE WOK. I= GT. 0 ,将 到 [Ko] 改 写 为 (ST.+c 十 1), 其 中 ST = 
Encrypt(ST.,SK) 。 计 算 UT, — Hi CK, ST.) WAR e—id OH; (Ky ST ,发送 UT. 
Ale 给 服务 器 。 最 后 ,服务 器 记 TTUT. ]=e. 

(3) GenTrapdoor 算法 。 数 据 所 有 者 首先 计算 KL =F Kw), 然后 本 地 查找 WK, J= 
(ST.,c) ,最 后 发 送 陷 门 T= 二 (Ks ST. 18 TR S 98 

(4) Search 算法 。 对 于 i 从 1 到 c, 计 算 UT; = Hi (Kus ST) CST, = Decrypt CST, . 
PK)) ÆR e— TLUT, ]. 448] id; Ce H, CK, .ST;)。 最 后 ,将 这 c 个 id 返回 给 搜索 者 。 





3.3.8 小 结 


最 初 ,为 了 形式 化 地 定义 检索 方案 的 安全 性 ,人 们 提出 了 选择 关键 词语 义 安全 IND- 
CKA 和 IND2-CKA, 但 是 对 陷 门 的 安全 性 并 没有 提出 明确 的 要 求 。 对 此 ,人 们 又 提出 了 基 
于 模拟 的 安全 性 定义 ,其 要 求 服务 器 无 法 获得 查询 结果 以 外 的 任何 信息 。 但 是 只 达到 上 述 
安全 性 并 不 够 ,人 们 进而 又 提出 了 4 个 新 的 安全 性 定义 : 非 适应 性 语义 安全 NS, dE ME 
不 可 区 分 性 NI、 适 应 性 语义 安全 AS 以 及 适应 性 不 可 区 分 性 AI。 然 而 , 随 着 对 SSE 研究 的 
扩展 ,这 些 安全 定义 也 已 经 无 法 完全 描述 密 文 检索 的 安全 性 。 

对 于 目前 安全 性 最 高 的 AS 安全 性 ,由 于 其 允许 泄露 查找 和 返回 过 的 关键 词 -文档 关 
系 ,导致 拥有 特定 攻击 能 力 和 背景 知识 的 敌手 可 以 对 方案 进行 攻击 。 例 如 文献 [39] 提 出 ,车 
敌手 事先 掌握 某 类 关键 词 同时 出 现 的 交叉 概率 (例如 “英超 "和 “足球 ”有 很 大 可 能 同时 出 现 
在 同一 个 文档 中 ), 则 可 能 通过 统计 分 析 多 个 检索 结果 之 间 的 交集 关系 ,推断 出 检索 条 件 的 
内 容 。 换 言 之 ,一 个 拥有 “部 分 查询 关键 词 明文 "和 "完整 文 档 明文 内 容 ” 的 敌手 ,可 以 对 满足 
AS 安全 性 的 方案 达成 破解 查询 明文 的 目标 。 随 后 ,文献 [40] 对 上 述 攻击 方案 进行 改进 ,使 
得 攻击 者 可 以 在 拥有 更 少 的 背景 知识 的 情况 下 ,达到 相同 乃至 更 好 的 攻击 效果 。 又 如 文献 
[24] 提 出 ,车 敌手 事先 了 解 用 户 的 查询 兴趣 ,而 且 这 些 查 询 兴 趣 之 间 存在 包含 关系 (例如 , 搜 
索 “ 自 驾 游 "得 到 的 结果 很 可 能 是 “旅游 ”的 搜索 结果 的 一 个 子 集 ) , 则 可 能 通过 统计 分 析 多 个 
检索 结果 之 间 的 包含 关系 ,推断 出 检索 条 件 的 内 容 。 

因此 ,未 来 的 工作 方向 是 研究 如 何 保护 关键 词 -文档 关系 ,并 论证 如 何 降低 各 类 攻击 的 
有 效 性 。 
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3.4 非 对 称 密 文 检 索 


3.4.1 概述 


非 对 称 密 文 检索 是 指数 据 所 有 者 (数据 发 送 者 ) 和 数据 检索 者 (数据 接收 者 ) 不 是 同一 方 
的 密 文 检索 技术 。 与 非 对 称 密码 体制 类 似 ,数据 所 有 者 可 以 是 了 解 公 钥 的 任意 用 户 ,而 只 有 
拥有 私 钥 的 用 户 可 以 生成 检索 陷 门 。 一 个 典型 的 非 对 称 密 文 检索 过 程 如 下 

COD Setup 算法 。 该 算法 由 数据 检索 者 执行 ,生成 公 钥 PK 和 私 钥 SK, 

(2) BuildIndex 算法 。 该 算法 由 数据 所 有 者 执行 ,根据 数据 内 容 建 立 索 引 , 并 将 公 钥 加 
密 后 的 索引 和 数据 本 身上 传 到 服务 器 。 

(3) GenTrapdoor 算法 。 该 算法 由 数据 检索 者 执行 ,将 私 钥 和 检索 关键 词 作为 输入 , 生 
成 相应 的 陷 门 ,然后 将 陷 门 发 送 给 服务 器 。 

(4) Search 算法 。 该 算法 由 服务 器 执行 ,将 公 钥 、 接 收 到 的 陷 门 和 本 地 存储 的 索引 作为 
输入 ,进行 协议 所 预 设 的 计算 ,最 后 输出 满足 条 件 的 搜索 结果 。 

文献 [41] 在 非 对 称 密码 体制 中 引入 密 文 检索 的 概念 ,并 首次 提出 了 非 对 称 密 文 关 键 词 
检索 方案 (Public Key Encryption with Keyword Search, PEKS). 目前 , 非 对 称 密 文 检 索 领 
域 主要 包括 3 种 典型 构造 : BDOP-PEKS*" ,KR-PEKS'? ffl DS-PEKS'? , jx 96 7j 3 f pg jn 
是 都 基于 某 种 基于 身份 的 加 密 体系 (Identity-Based Encryption ,IBE) 构 造 。 本 节 主 要 取材 
于 文献 [44]。 


3.4.2 BDOP-PEKS 方案 


我 们 考虑 如 下 应 用 场景 : 邮件 发 送 者 B 在 向 邮件 接收 者 A 发 送 邮 件 时 ,首先 使 用 A 的 
公 钥 对 邮件 包含 的 各 关键 词 wi stw t ws 分 别 构造 相应 的 索引 Ci ,Cs，…,C, ,并 将 其 附 在 
发 送 的 消息 已 (msg) 后 面 , 一 同 交 由 服务 器 存储 。 其 中 E 为 标准 的 公 钥 加 密 算 法 ,msg 为 邮 
件 内 容 。 检 索 时 ,A 使 用 自己 的 私 钥 为 查询 关键 词 w 生成 陷 门 T.。 ,并 将 其 发 送 给 服务 器 ， 
从 而 服务 器 能 够 判断 邮件 中 是 否 包含 关键 词 ww。 在 这 个 过 程 中 ,服务 器 无 法 获得 关于 邮件 
内 容 和 查询 关键 词 的 任何 有 用 信息 。 

BDOP-PEKS 方案 是 基于 BF-IBE55 实 现 的 ,其 安全 性 可 归结 为 BDH (Bilinear Diffie- 
Hellman) 假 设 。 给 定 两 个 阶 为 p WREG 和 Ga , 双 线 性 映射 ec:G X Gi >G: ,以 及 两 个 哈 希 
函数 Hi Al Ho ,其 中 H, 可 以 将 输入 值 映射 到 群 Gl,BDOP-PEKS 方案 的 具体 步骤 如 下 : 

COD Setup 算法 。A EREHE a =Z; 以 及 群 G; 的 生成 元 g, 输 出 私 钥 sk 二 a 以 及 公 
$H pk=(g-h=g"). 

(2) BuildIndex 算法 。 对 于 关键 词 ww ,B 首先 选取 随机 数 r =Z ,并 计算 te CH, Go) hk) € 
Gz ,随后 输出 该 关键 词 对 应 的 索引 C:= Cg" Ho (D. 

(3) GenTrapdoor 算法 。 对 于 查询 关键 词 w.A 使 用 私 钥 计 算 陷 门 T,== Hi Go" EG. 

(4) Search 算法 。 对 于 索引 C; — CA BD .如果 H, CeCT,, -A)) =B, Bü] UC Big IY. 25 D] 
匹配 失败 。 

现在 考虑 上 述 方案 的 正确 性 。 如 果 索 引 C, 对 应 的 关键 词 w, 与 查询 关键 词 相 等 , 则 











第 3 章 安全 检索 技术 


H,(e(T,,A)) = H: (e(H, (w)*.g")) 
B = H;(e(Hi(w),h’)) = H,(e(Hi(w),g”)) 

根据 双 线 性 映射 的 性 质 elgg) =e ag)” , 易 知 上 述 两 个 公式 相等 。 

由 于 BDOP-PEKS 方案 主要 基于 双 线 性 映射 实现 ,因此 ,计算 开销 较 大 ,使 得 该 方法 在 
大 数据 处 理 场景 中 的 应 用 性 受到 限制 。 

文献 L41] 最 早 定义 了 非 对 称 密 文 检索 方案 的 安全 性 , 即 在 选择 关键 词 攻击 下 的 不 可 区 
分 性 安全 IND-CKA CIndistinguishability under Chosen Keyword Attack) 。 该 定义 基于 游 
戏 或 实验 Exp!NP CRA ,其 具体 步骤 如 下 : 

CD 挑战 者 执行 Setup 算法 得 到 公 钥 pk MAH sk ,并 将 pk 发 送 给 攻击 者 。 

(2) 攻击 者 自 适应 询问 若干 次 陷 门 , 即 攻 击 者 将 查询 关键 词 发 送 给 挑战 者 ,挑战 者 执行 
GenTrapdoor 算法 生成 对 应 的 陷 门 ,并 将 其 返回 给 攻击 者 。 

G) 攻击 者 将 挑战 关键 词 W MW, 交 给 挑战 者 。 挑 战 者 随机 选取 5E (0.1) ,并 执行 
BuildIndex 算法 得 到 W 对 应 的 索引 C, ,然后 将 C 返回 给 攻击 者 。 

CD 攻击 者 在 自 适应 询问 若干 次 陷 门 后 ,输出 判定 值 沁 , 如 果 忆 一 2, 则 表明 攻击 成 功 ， 
否则 攻击 失败 。 

攻击 者 的 攻击 优势 定义 为 AdvCA) — 12 © Pr[ Exp"? **^— true ]— 1]. 

定理 3-3. 在 随机 预言 模型 下 ,BDOP-PEKS 方案 对 选择 关键 词 攻击 语义 安全 。 

除 此 之 外 ,文献 [41] 还 提 到 了 公 钥 算法 的 源 不 可 区 分 (source-indistinguishable) 语 义 安 
全 ,其 主要 含义 是 : 挑战 者 生成 两 对 公私 钥 对 ,然后 随机 选取 一 个 公 钥 加 密 任意 消息 ,并 将 
消息 和 密 文 发 送 给 攻击 者 ,攻击 者 无 法 判断 出 该 消息 是 被 哪个 公 钥 加 密 的 。 我 们 已 经 知道 ， 
基于 一 个 满足 源 不 可 区 分 性 的 公 钥 算法 ,可 以 构造 一 个 满足 语义 安全 的 非 对称 密 文 检索 方 
案 。 具 体 地 ,给 定 一 个 满足 源 不 可 区 分 性 的 公 钥 方案 (G,E,D) ,为 了 避免 引起 符号 表示 上 
的 混淆 ,也 常 将 公 钥 方案 (G,E,D) 记 为 (PK. G,PK.E,PK.D) ,其 中 G 或 PK. G 为 密 钥 生成 
算法 ,E 或 PK.E 为 加 密 算法 ,D Bk PK. D 为 解密 算法 ,可 以 通过 如 下 步骤 来 构造 一 个 密 文 
检索 方案 : 

COD Setup 算法 。 对 于 词典 W 中 的 各 关键 词 wi ,执行 G 算法 为 其 生成 一 对 公私 钥 对 
(ski ,pki) ,最 后 输出 私 钥 集合 SK — (sk; |w;EW}) 以 及 公 钥 集合 PK= {pki lw; EW}. 

(2) BuildIndex 算法 。 对 于 关键 词 rw ,首先 选取 随机 数 M, 然 后 以 M 和 w; 对 应 的 公 
pk; 作为 输入 ,执行 刁 算 法 得 到 密 文 S ,最 后 输出 索引 石 二 CM,S)。 

(3) GenTrapdoor 算法 。 对 于 查询 关键 词 vw. HAT] T BIS w 对 应 的 私 钥 , 即 T 一 sk。 

(4) Search 算法 。 执 行 D 算法 ,使 用 陷 门 工 解密 索引 石 , 测 试 是 否 匹配 成 功 。 


3.4.3 KR-PEKS 方案 





KR-PEKS 方案 是 在 KR-IBE' 的 基础 上 实现 的 ,其 安全 性 可 归结 为 DDH (Decisional 
Diffie-Hellman) 假 设 。 同 3. 4. 2 节 的 BDOP-PEKS 方案 一 样 ,KR-PEKS 方案 也 是 对 文档 对 
应 的 各 关键 词 分 别 生 成 索引 ,并 在 检索 时 依次 使 用 陷 门 测试 各 索引 。 该 方案 的 具体 步 又 
AF. 

CD Setup 算法 。 数 据 检索 者 选 定 阶 为 q 的 群 G 以 及 两 个 生成 元 g1 和 go ,并 在 Z, 上 
随机 构造 6 个 多 项 式 : 
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Pi(z) = d, o dix! +d? ++ bd,r* P(x) = dod dix! d dia? ++ + dirt 

FG) =a) -- aix! Harz? +- Hat F(x) = as a x! o asa! +e 十 CA 

hi (x) = bo bx! + baa? 二 十 ber h(x) = bit bx! de boa ++ + birt 
MF oou tH A,— g^ g^ B, — gh g^ D, — g^ gh 。 此 外 ,还 需要 选择 两 个 随机 抗 碰撞 
哈 希 函数 H fil A’. 最 后 ,输出 私 钥 SK= (Fi,F,;h hi Py , P: ), 公 钥 PK= (gi,g2;Ao,*, 
Ai;Bo,*… ,Bi;Do,…,D;;H,H’). 

(2) BuildIndex 算法 。 数 据 所 有 者 首先 选择 一 个 随机 数 疡 EZ, ,计算 u Sgi ,ws 一 gn。 


$ k k 
后 对 于 关键 词 ww, 依次 计算 A, = II^? Bu = IB" ,D, = Ip? w= D} e= (00 
H'(s)sa = Hu suz se) ,vo = Aan- + (By yr UG di th e iid w 对 应 的 密 文 索引 C = 


(Qu sug eU.) o 

(3) GenTrapdoor 算法 。 对 于 检索 关键 词 ww, 数 据 检索 者 使 用 私 钥 生成 陷 门 Tu = 
<F, Go) , F; Cw) hy (w) shy Cw) P, Cu Pow) >. 

(A) Search 算法 。 给 定 某 关键 词 的 密 文 索引 C 和 查询 关键 词 w BAT Tu ,服务 器 计 
F a— H Ga ,xye), 并 测试 w ERFT (u) Aa e (u) 0018009 ,如 果 不 等 于 则 停 
止 , 否 则 计算 s=) e Cuz) ® ,mm 二 eH'(s)。 如 果 计算 结果 为 0 ,那么 C 是 查询 关 
键 词 w 的 一 个 加 密 方案 。 

相 较 于 BDOP-PEKS,KR-PEKS 不 需要 利用 双 线 性 运算 ,因此 拥有 较 高 的 服务 器 检索 
效率 。 在 安全 性 方面 ,虽然 KR-PEKS 同样 满足 IND-CKA 安全 性 ,但 是 该 方案 需要 设置 一 
个 安全 参数 来 控制 恶意 陷 门 查询 次 数 。 若 参数 设置 过 小 , 则 无 法 抵御 恶意 查询 ; 若 参 数 设 置 
过 大 , 则 将 导致 较 大 的 服务 器 存储 空间 。 


3.4.4 DS-PEKS 方案 


DS-PEKS 方案 主要 基于 雅 可 比 符 号 以 及 二 次 剩余 中 二 次 不 可 区 分 性 问题 CQuadratic 
Indistinguishability Problem, QIP)。 与 BDOP-PEKS, KP-PEKS 的 构造 思路 类 似 , DS- 
PEKS 方案 同样 为 各 关键 词 分 别 生 成 索引 。 记 ZZ) AERA. ACR W 
足 3 个 条 件 : @@ 小 于 nn OF n ER; 四 雅 可 比 符号 等 于 十 1( 一 1) 。 给 定安 全 参数 m MK 
fibi] HE BE kV AS PRK H 100.1); . DS-PEKS 方案 的 具体 步骤 如 下 : 

CD Setup 算法 。 数 据 检 索 者 随机 选取 两 个 长 度 为 m /2 的 素数 p 和 9 , 且 这 两 个 素数 都 
符合 3 mod 4, 令 n= 三 pg。 输 出 公 钥 pk 一 (21) 以 及 私 钥 sk— (p.q). 

(2) BuildIndex 算法 。 当 数据 所 有 者 为 关键 词 w 生成 索引 时 ,对 于 每 一 个 i 二 1,… ,4k。 

(2.1) 计算 aD 并 随机 选取 w; € Z; 


(2.2) ine (和 于 ^ - 十 1, 则 随机 选取 二 E ZH JEI s; = G; +hi/t)mod n; WE 


(eye 1,0}, W s;=u;. 
n 

(2.3) 输出 索引 s= Gi esaet su. 

(3) GenTrapdoor 算法 。 假 设 数据 检索 者 希望 为 关键 词 W. 生成 陷 门 ,对 于 每 一 个 ;一 


1,25: 4k: 
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(3. D 计算 A; — HOW D. 

(3.2) 使 用 p 和 g 随机 选择 siEZ: .A gi =h; mod n; MWR g; 不 存在 , 则 记 g;— 1. 
最 后 ,输出 陷 门 g= Gnome 

(4) Search 算法 。 给 定 索引 s 和 陷 门 g ,对 于 每 一 个 i=1,2,…,4k。 

(4.1) WR g—l.Nz—l. 


(4.2) 如 果 gi =h mod n HAHAH s ag (51) +1, z; (e), 


Wj.z— | 。 最 后 ,如 果 对 于 所 有 IWE: {十 1, |), 则 匹配 成 功 ,否则 匹配 失败 。 
DS-PEKS 方案 同样 满足 IND-CKA 安全 性 , 且 检索 和 加 密 效 率 较 高 ,但 服务 器 和 用 户 
间 的 交互 需要 占用 较 大 带宽 。 


3.4.5 扩展: 多 关键 词 检索 、 多 对 多 PEKS 


1. 多 关键 字 检 索 

基于 DLDH (Decision Linear Diffie-Hellman) (ix ,文献 [47] 提 出 了 一 种 支持 多 关键 词 
检索 的 非 对 称 密 文 检索 方案 。 该 方案 为 一 个 关键 词 集合 W 统一 构造 索引 了 工 ,检索 时 ,数据 
检索 者 需要 指明 每 个 检索 关键 词 在 关键 词 集合 W 中 的 位 置 。 换 句 话 说 ,每 个 关键 词 都 属于 
一 个 域 。 具体 地 ,查询 条 件 的 表达 方式 为 Q= (ind; ind, sett sind, * Wind, * Wind, * *** » Wind, } ,其 
中 ind; WRIA wing 在 集合 W 中 对 应 的 位 置 。 给 定 两 个 阶 为 p 的 群 G, 和 G;, 双 线性 映射 
e:G1 XG, >G: ,以 及 两 个 哈 希 函数 Hi 和 惠 ;, 且 这 两 个 函数 都 可 以 将 输入 值 映 射 到 群 G , 方 
案 的 具体 步骤 如 下 : 

COD Setup 算法 。 数 据 检索 者 选取 随机 数 =Z; 以 及 群 G1 的 生成 元 ,计算 y= f 
后 得 到 公 钥 pk y 以 及 私 钥 sk. 

(2) BuildIndex 算法 。 假 设 为 关键 词 集合 W — {w we ,wi} 生 成 索引 ,数据 所 有 者 
首先 选择 两 个 随机 数 s.r EZ; ,然后 根据 公 钥 和 随机 数 计算 A— e" ,B=y C; fi dSi<), 
HoP a — HiGo) ,fi 二 Hi(wi)。 最 后 ,输出 关键 词 集合 对 应 的 索引 I= CA B.C Co CO. 

(3) GenTrapdoor 算法 。 对 于 查询 条 件 QS (ind; vind, «+++ sind, + Wing, + Wind, +% Wind, } + 
数据 检索 者 选取 随机 数 4EZ; ,并 计算 Ti = g' ,Ts = (hig hinapi "haa ) o Ts = (Sin f na 
fia, Y. Ba SEAT] T—(T; T; T; ind, iind; ,… sind, } o 








(A) Search 算法 。 给 定 索引 工 和 陷 门 工 ,测试 是 否 满足 e(Ti [Cw ) = eA TO - 


e(B,T;). 

2. 多 对 多 PEKS 

针对 多 对 多 的 应 用 场景 ,文献 [48] 引 入 了 确定 性 加 密 的 概念 。 确 定性 加 密 是 指 对 于 相 
同 的 公 钥 和 明文 ,算法 输出 的 密 文 相同 。 该 方案 提出 可 以 使 用 任意 公 钥 加 密 方案 和 任意 确 
定性 Hash 函数 来 实现 多 对 多 的 单 关键 词 检索 。 但 是 由 于 确定 性 加 密 的 使 用 ,该 方案 直接 
泄露 了 索引 信息 和 检索 模式 。 

此 外 ,文献 L49] 考 虑 了 一 种 比较 新 颖 的 系统 模型 ,其 中 每 个 用 户 都 拥有 自己 单独 的 私 
钥 , 同 时 每 个 用 户 都 可 以 自己 向 服务 器 上 传 密 文 并 检索 全 部 数据 。 其 核心 思路 是 使 用 双 线 
性 映射 来 确保 对 于 同一 个 关键 词 .拥有 不 同 检索 密 钥 的 用 户 可 以 生成 相同 的 索引 。 然 而 ,由 
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于 本 方案 使 用 双 线性 映射 ,因此 检索 效率 较 低 。 

给 定 对 称 加 解密 算法 Enc, Dec, IT BTN p WBF G IG» , 双 线 性 映射 ec:G XG 一 Cz ， 
群 G1 的 生成 元 g, 以 及 两 个 哈 希 函数 户 和 疙 ,其 中 忆 可 以 将 输入 值 映 射 到 群 C 。 此 外 , 假 
设 所 有 用 户 属于 一 个 集体 ,并 存在 一 个 管理 员 UM。 文献 [49] 的 具体 步骤 如 下 : 

CD Setup 算法 。 管 理 员 UM 选取 随机 数 x € Z; ,并 将 其 作为 自己 的 私 钥 Roy 二 xz。 对 
于 某 个 用 户 U,UM 首先 选择 zvEZ; 并 计算 ComKu =g €G, ,然后 将 zu 秘密 发 送 给 用 
户口 ,同时 将 ComKy 发 送 给 服务 器 。 

(2) BuildIndex 算法 。 当 用 户 U 希望 为 关键 词 w 生成 索引 时 ,首先 选取 随机 数 "EZz ， 
然后 将 h Cw)" 发 送 给 服务 器 。 随 后 ,服务 器 根据 用 户 U 对 应 的 ComKu 3E SE e' =e Chi 
Cw)" .ComK,) ,并 将 计算 结果 返回 给 用 户 。 最 后 ,用 户 U TEE k =h Gv) ,得 到 关键 词 对 
应 的 索引 I— Gn Enc, (m)) ,其 中 为 随机 消息 。 

(3) GenTrapdoor 算法 。 当 用 户 U 想 要 检索 关键 词 ww 时 ,为 其 计算 陷 门 g==h Cw) 。 

(4) Search 算法 。 根 据 用 户 U 对 应 的 ComKy ,服务 器 首先 计算 k ==h, (el(g,ComKu))。 
如 果 对 于 某 条 索引 [一 (4A,B) ,满足 A=Decy (B), 则 该 索引 对 应 的 关键 词 即 为 检索 关键 词 。 

现在 考虑 上 述 方案 的 正确 性 。 根 据 用 户 U 的 陷 门 ,服务 器 可 以 得 到 一 个 解密 密 钥 : 

k = hs(e(g,ComKu)) = h: (elh, Cw) ,g?"v )) = h: Celh Cw), g)*) 
而 对 于 由 用 户 Y 上 传 的 关键 词 w 对 应 的 索引 ,其 加 密 密 钥 为 
k = ha Ce"Y^) = h: lelh (w) ,g??v 77") = he(hi(w),g)*) 
可 见 , 计 算 过 程 中 用 户 的 私 钥 被 抵消 了 ,计算 结果 仅 与 关键 词 和 管理 员 密 钥 相 关 。 因 此 , 即 
使 索引 和 陷 门 的 生成 者 不 同 , 相 同 关键 词 的 计算 结果 也 是 一 致 的 。 


3.4.6 小 结 


本 节 重 点 介绍 了 3 种 非 对 称 密 文 检索 方案 的 典型 构造 ,其 在 通信 和 量 、 服 务 器 检索 效率 、 
加 密 效率 等 方面 的 对 比如 表 3-2 所 示 。BDOP-PEKS 拥有 较 低 的 通信 量 ,但 是 加 密 和 检索 
时 都 需要 一 次 双 线 性 对 运算 ,导致 效率 较 低 ;KR-PEKS 的 服务 器 检索 效率 最 优 , 但 是 为 了 
抵抗 恶意 攻击 ,需要 较 大 的 服务 器 端 存 储量 ;DS-PEKS 的 检索 和 加 密 效率 较 高 ,但 是 服务 器 
和 用 户 之 间 的 通信 量 较 大 。 





表 3-2 非 对 称 密 文 检索 方案 对 比 











非 对 称 密 文 检索 方案 通信 和 量 服务 器 检索 效率 加 密 效率 
BDOP-PEKS lgl 一 次 双 线性 对 运算 一 次 双 线 性 对 运算 
KR-PEKS 6lgl oa) OG) 
DS-PEKS AlgllogN ON) ON) 











ik. |g| 表 示 群 中 元 素 所 占用 的 存储 空间 ,N 表示 字典 中 的 关键 词 个 数 ,k 为 安全 参数 。 


文献 [50] 对 方案 BDOP-PEKS 进行 了 分 析 , 并 构造 了 针对 该 方案 的 离线 关键 词 猜测 攻 
击 (off-line keyword guessing attack) 。 导 致 离线 关键 词 猜 测 攻击 的 原因 主要 包括 两 个 方 
面 : 首先 ,攻击 者 可 以 对 某 次 攻击 是 否 成 功 进行 预先 判定 ;其 次 ,关键 词 空间 远 小 于 密 钥 空 
Te] ,而 且 某 些 关 键 词 的 查询 频率 较 高 。 典 型 的 离线 关键 词 猜测 攻击 有 3 个 攻击 步 又: 
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CD 攻击 者 获得 关键 词 w 对 应 的 检索 陷 门 T。。 

(2) 根据 关键 词 的 查询 频率 ,攻击 者 从 字典 中 选取 一 个 合适 的 猜测 关键 词 w' 。 

(3) 攻击 者 构造 测试 方法 ,根据 陷 门 To 猜测 关键 词 w AA pk 等 信息 ,计算 关键 词 
vo 是 否 等 于 猜测 关键 词 vo 

由 于 关键 词 空间 的 大 小 都 是 关于 安全 参数 的 某 个 多 项 式 , 因 此 ,敌手 只 需要 多 项 式 时 间 
就 可 以 实现 有 效 攻击 。 

对 于 离线 关键 词 猜测 攻击 ,文献 [51] 给 出 了 一 种 解决 思路 。 该 方案 的 核心 思想 是 由 服 
务 器 进行 模糊 检索 ,过 滤 大 部 分 不 相关 的 数据 ,最 后 由 客户 端 在 本 地 进行 精确 查询 。 通 过 引 
入 二 次 检索 ,可 以 在 一 定 程度 上 抵抗 关键 词 猜测 攻击 ,但 同时 也 增加 了 客户 端 与 服务 器 之 间 
的 通信 代价 以 及 客户 端的 计算 代价 。 

在 本 节 介 绍 的 非 对 称 密 文 检索 方案 中 ,数据 所 有 者 将 数据 以 (PKE. Enc (pk, MSG), 
PEKS. BuildIndex(pk,w) ) 的 形式 存储 在 服务 器 中 ,并 在 分 析 安 全 性 时 将 公 钥 算法 PKE 和 
密 文 检索 算法 PEKS 分 别 进行 考虑 ,而 忽略 了 整个 系统 的 安全 性 。 换 句 话 说 ,即使 PKE 和 
PEKS 都 是 安全 的 ,系统 也 可 能 受到 恶意 攻击 者 的 破坏 。 例 如 ,如 果 攻 击 者 删除 了 某 个 数据 
的 PKE 部 分 或 者 将 两 个 数据 的 PEKS 部 分 进行 交换 ,检索 者 都 无 法 获得 期 望 的 数据 。 针 对 
此 问题 ,文献 [52] 提 出 在 加 密 过 程 中 额外 引入 标签 ,来 保护 密 文 数据 和 索引 的 相关 性 以 及 完 
整 性 。 

此 外 ,在 大 部 分 非 对 称 密 文 检索 方案 中 ,客户 端 和 服务 器 需要 在 安全 信道 上 进行 通信 ， 
否则 陷 门 和 查询 结果 可 能 受到 外 部 攻击 者 的 截获 和 算 改 。 此 外 ,服务 器 也 可 能 基于 背景 知 
识 对 以 往 的 陷 门 和 查询 结果 进行 分 析 。 针 对 上 述 问 题 ,文献 [53] 提 出 同时 使 用 检索 者 和 服 
务 器 的 公 钥 构造 索引 ,从 而 只 有 检索 者 授权 的 服务 器 才能 够 进行 查询 ,限制 了 可 以 执行 检索 
算法 的 对 象 。 





3.5 密 文 区 间 检 索 


对 于 加 密 的 数值 型 数据 ,除了 简单 的 等 值 检索 以 外 ,还 有 区 间 检 索 的 需求 。 区 间 检 索 是 
重要 的 数据 库 检 索 类 型 之 一 ,例如 可 以 使 用 SQL 语句 select * from info where age>25 and 
age<29 来 查找 年 龄 为 26 一 28 岁 的 职工 信息 。 理 论 上 ,任意 区 间 检 索 都 可 以 转换 成 多 次 等 
值 检 索 ( 例 如 分 别 查找 年 龄 属性 为 26、27、28 的 职工 记录 ) ,但 是 这 会 产生 额外 的 隐私 泄露 ， 
并 且 当 检索 区 间 较 大 或 者 数据 精度 较 高 时 ,会 导致 检索 陷 门 的 大 小 难以 接受 ,因此 该 方法 并 
不 可 行 。 

从 分 类 逻辑 而 言 , 区 间 检 索 属 于 密 文 检索 技术 在 特殊 类 型 数据 上 的 功能 扩展 ,应 该 归 到 对 
称 密 文 检索 和 非 对 称 密 文 检索 (3. 3 节 和 3.4 节 ) 中 介绍 。 然 而 ,由 于 研究 者 通常 对 区 间 检 索 进 
行 单独 研究 ,使 得 这 部 分 的 相关 工作 体系 十 分 庞大 ,所 以 本 节 对 这 方面 的 技术 单独 介绍 。 

早期 的 密 文 区 间 检 索 方 案 主要 基于 桶 式 索 引 和 传统 加 密 技术 ,这 些 方案 实现 简单 ,但 是 
在 安全 性 和 检索 效率 上 有 较 大 的 缺陷 ,后 续 研 究 也 较 少 ,因此 本 节 仅 对 其 进行 简单 介绍 。 当 
前 主流 的 密 文 区 间 检 索 方案 主要 分 为 4 类 : 四 基于 谓词 加 密 ; QF MIB; @ 基 于 等 
值 检索 ; @ 基 于 保 序 加 密 。 本 节 将 详细 介绍 这 4 类 方案 中 的 经 典 文献 ,并 对 其 安全 性 和 检 
索 效 率 进行 分 析 。 
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3.5.1 早期 工作 


Hacigümüs 等 5 提出 使 用 桶 式 索引 来 实现 对 于 单 维 区 间 的 密 文 检索 ,其 主要 思路 是 将 
属性 值 域 划分 为 桶 ,并 为 各 桶 分 配 一 个 唯一 的 标识 ,记录 的 索引 即 为 其 属性 值 所 在 桶 的 标 
识 。 如 图 3-5 所 示 ,假设 属性 ID 的 值 域 为 [0,1200) ,分 桶 后 ,ID 位 于 [0,300) 的 记录 对 应 的 
索引 为 2,ID 位 于 [300,600) 的 记录 对 应 的 索引 为 4,ID 位 于 [600,900) 的 记录 对 应 的 索引 为 
3.ID 位 于 [900,1200) 的 记录 对 应 的 索引 为 1。 当 需要 对 数据 进行 检索 时 ,用 户 将 与 检索 区 
间 相 交 的 桶 的 标识 集合 发 送 给 服务 器 ,服务 器 随后 将 这 些 桶 内 的 全 部 密 文 数据 作为 检索 结 
果 返 回 给 用 户 。 例 如 , 当 用 户 需要 检索 ID 位 于 [0,500) 的 记录 时 , 则 将 2 和 4 发 送 给 服务 
器 ,随后 服务 器 将 索引 为 2 或 者 4 的 全 部 密 文 记 录 返 回 给 用 户 。 显 然 , 服 务 器 返回 的 检索 结 
果 中 可 能 包含 不 满足 检索 条 件 的 元 余数 据 ( 即 ID fr [500.6000 fff id 360 ,因此 当 用 户 将 接 
收 到 的 检索 结果 解密 以 后 ,还 需要 在 本 地 剔除 元 余数 据 , 即 进行 二 次 检索 。 

0 300 600 900 1200 
属性 ID l | | | | 
桶 标识 2 4 3 1 

图 3-5 属性 ID 的 分 桶 策略 示意 图 








上 述 分 桶 策略 较为 粗糙 , 且 没 有 分 析 方 案 的 安全 性 和 误 报 率 。 在 此 基础 上 , Hore 5559 
提出 使 用 分 桶 的 粹 和 方差 作为 衡量 安全 性 的 指标 ,并 设计 了 一 种 平衡 安全 性 以 及 误 报 率 的 
解决 方案 。 假 设 所 有 检索 区 间 出 现 的 概率 相同 , 则 对 于 长 度 为 k 的 检索 区 间 , 桶 B 导致 的 
误 报 次 数 计算 如 下 : 

(Na 一 1) . 户 = Qa —D* Mf; = (NS — D * Fg ~ Na * Fe 
v€B v€B 


可 见 , 计 算 结果 仅 与 桶 B 对 应 区 间 的 长 度 Ns 以 及 属于 该 桶 的 记录 数目 Fs 相关 。 那 

么 ,对 于 全 部 桶 , 误 报 总 数 计算 如 下 : 
NE * Fs, 

由 于 上 式 符合 最 优 子 结构 性 质 , 因 此 ,可 以 使 用 动态 规划 算法 来 确定 最 优 分 桶 策略 ,从 而 使 
得 误 报 率 最 低 。 出 于 对 安全 性 的 考虑 ,Hore 等 提出 在 最 优 分 桶 结果 的 基础 上 ,对 各 桶 内 的 
记录 进行 重新 分 配 ,以 增加 检索 结果 的 误 报 率 为 代价 来 提高 方案 的 安全 性 。 随 后 , Hore 
等 [器 又 将 桶 式 索 引 的 概念 扩展 到 多 维 空间 ,并 提出 了 一 种 面向 多 维 数据 的 密 文 区 间 检 索 
方案 。 

基于 桶 式 索 引 的 密 文 区 间 检 索 方案 的 优点 在 于 实现 简单 ,并 在 一 定 程度 上 保证 了 敏感 
数据 的 机 密 性 。 但 是 ,服务 器 返回 的 检索 结果 中 可 能 包含 大 量 的 元 余数 据 , 需 要 客户 端 进行 
二 次 检索 。 此 外 ,以 上 方案 还 需要 将 分 桶 策略 保存 在 本 地 ,并 在 检索 时 由 客户 端 自行 查找 与 
检索 区 间 相 交 的 桶 的 标识 ,从 而 增加 了 客户 端的 数据 存储 量 和 计算 负担 。 

Damiani 等 中 提出 了 一 种 基于 B 十 树 和 传统 加 密 技术 的 密 文 区 间 检 索 方 案 。 如 图 3-6 
所 示 , 用 户 首先 为 数据 构造 B 十 树 ,并 使 用 传统 加 密 技 术 将 各 节点 分 别 加 密 后 存储 到 服务 
器 ,从 而 使 服务 器 无 法 了 解 各 节点 的 具体 内 容 。 当 进行 检索 操作 时 ,服务 器 需要 将 密 文 节点 
返回 给 用 户 , 由 用 户 在 解密 后 进行 判断 ,然后 通知 服务 器 下 一 个 需要 查询 的 密 文 节点 。 此 方 
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案 增 加 了 客户 端的 工作 量 ,并 且 需 要 服务 器 和 客户 端 之 间 进 行 多 轮 交 互 操作 ,这 导致 检索 效 
率 受到 网 络 延 时 的 影响 。 理 论 上 ,基于 传统 加 密 技术 的 方案 同样 可 以 扩展 到 多 维 空间 ,例如 
使 用 R 树 "9 为 多 维 数据 构造 索引 并 分 别 加 密 各 节点 ,但 是 较 低 的 检索 效率 阻碍 了 其 在 现实 
场景 中 的 应 用 。 
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3 4 $ 6 
Alice | | Bo 上 | chis | | Donna 
图 3-6 基于 传统 加 密 技术 的 方案 示意 图 





本 质 上 ,基于 桶 式 索引 和 传统 加 密 技 术 的 方案 并 不 是 完全 意义 上 的 外 包 方案 , 因 为 在 这 
些 方案 中 ,服务 器 的 作用 仅 为 存储 密 文 数据 并 在 检索 时 直接 返回 客户 端 指定 的 密 文 内 容 , 真 
正 的 检索 功能 依然 由 客户 端 完成 。 

考虑 到 目前 常用 的 轻型 客户 端 设 备 (如 智能 手机 、 平 板 电脑 等 ) 通 常 只 拥有 有 限 的 存储 
能 力 和 计算 能 力 , 因 此 研究 者 基本 不 再 对 基于 桶 式 索引 和 传统 加 密 技术 的 方案 进行 深入 研 
究 , 而 是 更 倾向 于 研究 如 何 将 大 部 分 检索 工作 交 给 服务 器 完成 ,并 尽量 减少 服务 器 和 客户 端 
之 间 的 交互 轮 数 。 在 下 面 介绍 的 方案 中 ,服务 器 与 客户 端 之 间 在 检索 时 仅 存 在 两 轮 交 互 , 第 
一 次 是 由 客户 端 将 检索 陷 门 发 送 给 服务 器 ,第 二 次 是 服务 器 根据 陷 门 和 密 文 索 引 完成 检索 
后 ,将 检索 结果 返回 给 客户 端 。 


3.5.2 基于 谓词 加 密 的 方案 


针对 不 同 的 应 用 场景 ,谓词 加 密 可 以 分 为 对 称谓 词 加 密 和 非 对 称谓 词 加密 。 基 于 不 同 
类 型 的 谓词 加 密 技 术 ,相应 的 密 文 区 间 检 索 方案 也 可 分 为 对 称 和 非 对 称 两 类 。 本 节 以 对 称 
密 文 区 间 检 索 方案 为 主 ,首先 介绍 由 Shen 等 提出 的 对 称谓 词 加 密 方案 SSW, 然 后 详细 
介绍 基于 SSW 的 单 维 区 间 检 索 方案 [0 和 多 维 区 间 检 索 方案 [5 。 需 要 注意 的 是 ,在 基于 谓 
词 加 密 的 方案 中 ,假设 所 有 值 均 为 整数 。 

SSW 方案 主要 用 于 判断 向 量 内 积 是 否 为 0, 即 给 定数 据 向 量 xE ZA. 以 及 由 检索 向 量 
vwEZ% 确 定 的 谓词 f, HAY Soe, mod N=0 时 ,f。 GO —1, (EE G 表示 一 个 群生 成 
器 ,SSW 的 具体 实现 步骤 如 下 : 

(1) SSW. setup(1): 使 用 群生 成 器 G AK 19 Cp. qe ris. G. Gre HP G=G, XG, X 
G, XG,, 并 分 别 选取 G, G G, G, 对 应 的 生成 元 gs， esee es :同时 对 于 Lin s ^E JB EL 
Z Chii sho stay: us € (Gp) ,输出 密 钥 SK — (gr, «go ge ges Unus ho tu suzi }ta1) 6 

(2) SSW. enerypt SK 3) : 选取 随机 数 y,x,a,BE Zr 以 及 随机 数 S,SoEGs, 同 时 对 于 
1 委 i 委 ,选取 随机 数 Ri,; ,Rs,;EG,, 输 出 密 文 
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er-( C=Sis 56). S, | 
{C = 局 RCR 

(3) SSW. gentokenC SK, v); 选取 随机 数 fis fe € Zy 以 及 随机 数 尺 ,ReEsG, ,同时 对 于 
IKin, Y WB BUE ri, ,rz,; € Zy ,以 及 随机 数 S S; EG, S HEAT] 


K-R* Dmm mE TRIS + ue 
TK, = i=1 i 


{Kiu = gp" ° gh e Sins Kou = gui gh Sey 
(4) SSW. query(CT,TK.): MR e(C.K) * (Cy ,Ko) 。 II[«o..&.» *e(Q Kai) = 1, 
i=l 
则 输出 1 ,否则 输出 0。 
现在 考虑 SSW 的 正确 性 ,根据 SSW. query(CT,TK。) 中 使 用 的 计算 公式 ,可 以 得 到 如 
TAX. 


e(C.K) * e(C,. Ko) * Tle &.» © e(C; ,K»,) = e(g, gi Momo oom 


i=l 


当 Mus mod N = 0 A}, SSW. query CT. TK.) 的 输出 结果 为 1; 而 当 Mus mod N 40 
i=l 


时 ,SSW. query(CT, TK, ) 的 输出 结果 为 0 的 概率 大 于 1 — (A) ,其 中 s(A) 是 一 个 可 忽略 函数 。 

理论 上 ,可 以 直接 使 用 上 述 谓 词 加 密 方案 SSW 来 判断 属性 值 vE [1,T] 是否 属于 区 间 
Qc [T] AREE v 构造 向 量 x = nsnm xr) AP. i — vill v; = 1,0 
a; 一 0, 然 后 使 用 SSW. encrypt JI 2 [8] fit x 得 到 C ;为 区 间 Q 构造 向 量 y = (yii 
yr} ,其 中 ,车 i € Q, 则 yw = 0.8590 y, = 1, 然后 使 用 SSW. gentoken 加 密 向 量 y 得 到 tke. 
此 时 ,车 SSW. query CC. tka) 输出 1, 则 vwE QEN v E Q。 虽 然 该 方案 实现 简单 ,但 是 需要 
为 各 条 记录 分 别 构造 索引 ,并 在 检索 时 进行 线性 扫描 ,因此 ,其 计算 量 与 记录 数目 和 属性 值 
域 ( 即 向 量 长 度 ) 成 正比 。 考 虑 到 现实 应 用 场景 中 大 多 为 实数 型 数据 ,因此 向 量 的 长 度 会 非 
常 大 ,导致 该 方法 检索 效率 过 低 。 

基于 谓词 加 密 技 术 SSW 和 B 十 树 , 可 以 设计 一 种 次 线性 检索 效率 的 密 文 单 维 区 间 检 索 
方案 。 虽 然 在 早期 工作 中 ,也 有 学 者 使 用 B 十 树 来 实现 密 文 区 间 检 索 5] ,但 是 该 方案 需要 
客户 端 与 服务 器 之 间 进 行 多 轮 交 互 ,其 原因 在 于 服务 器 无 法 直接 使 用 密 文 判断 节点 关键 值 
与 检索 条 件 的 大 小 关系 。 为 了 减少 交互 次 数 , 仅 借助 SSW 加 密 节 点 关键 值 , 同 时 保留 节点 
间 的 明文 关联 关系 ,并 将 判断 属性 值 是 否 属于 某 个 区 间 转 换 为 判断 向 量 内 积 是 否 为 0, 从 而 
使 服务 器 可 以 独立 地 对 加 密 后 的 B 十 树 进 行 检 索 。 此 外 ,在 本 章 后 续 介 绍 的 基于 树 结构 的 
方案 中 , 均 保 留 了 节点 间 的 明文 关联 关系 。 

假设 检索 条 件 为 Q=[g,,g.]C[L1,TJj, 在 检索 BB 十 树 时 ,需要 判断 两 个 端点 % 和 g, 与 节 
点 关键 值 vE [1,T] 的 大 小 关系 。 换 句 话 说 ,要 对 B 十 树 进行 安全 检索 ,需要 安全 地 判断 o 
是 否 属于 [1,g; 一 1] 或 者 [g. 十 1,T]。 

为 了 减少 所 需 向 量 的 长 度 ,首先 将 属性 值 和 区 间 表 示 为 节点 集合 的 形式 ,进而 再 将 其 转 
换 为 向 量 形式 。 图 3-7 是 范围 [0,7] 对 应 的 线段 树 , 一 个 非 叶 子 节点 对 应 一 个 区 间 ( 如 节 
点 01* 对 应 区 间 [010,011]) ,一 个 叶子 节点 对 应 一 个 属性 值 ( 如 节点 101 对 应 值 5)。 
定义 CP(v) 二 {i ,us，… ,ui) 为 包含 属性 值 v 的 全 部 节点 ,例如 当 o—5 时 ,CP(v) 为 图 中 由 
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000 001 010 011 100 101 110 111 
图 3-7 范围 [0,7] 对 应 的 线段 树 示意 图 


菱形 标注 的 节点 集合 {101,10” , 17 7), $E XX MCS(Q) = {w ,ws，… ,wr ) 为 覆盖 且 仅 覆盖 
检索 条 件 Q 的 最 小 节点 集合 ,例如 当 Q=[1.6] 时 ,MCS(CQ) 为 图 中 由 矩形 标注 的 节点 集合 
(001,01* ,10* ,110), 4 v€ Q 时 ,CP(o) 与 MCS(CQ) 的 交集 不 为 空 且 仅 有 一 个 相交 的 节 
点 ,否则 交集 为 空 。 进 一 步 地 ,为 CP(v) 构 造 多 项 式 : 

PG) (x — u,)(x — uz)" (x — u) ao tarx +" d aux! 
该 多 项 式 的 根 即 为 CP(v)。 如 果 vEQ, 则 必然 存在 w: WE P Go) =0. 

由 此 ,可 以 将 值 是 否 属于 区 间 的 判断 转换 为 多 次 向 量 内 积 是 否 为 零 的 判断 ,具体 步骤 如 下 : 

(1) setup(1): 输出 密 钥 SK —SSW. setup(1 ) 。 

(2) value enc( SK.) : 计算 得 到 CP) = {u ,xz tuu) ,并 构造 多 项 式 POOL) — G— 
uy) Gr — ug) *** Gr— u,) =a Hair tH t eaux! 及 其 系数 对 应 的 向 量 a 二 (ao,…,a,), 输 出 索引 
C=SSW. encrypt(SK ,a) 。 

(3) query_enc(SK,Q): 计算 得 到 MCS(Q) = (wi we «t we) ,对 其 各 元 素 rw 构造 向 
Hb y; Cw? wl owD ,输出 TT 二 {TT ,Ts,… Te} H T;:=SSW. gentoken(SK ,y;)。 

(4) xsect(C,T): 车 存在 i 使 得 SSW. query(C,T;) 二 1, 则 输出 1, 否则 输出 0。 
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ZX4rj [X41，X%,.rj)。 我 们 已 经 知道 ,车 RNR' 关 名 , 则 对 于 任意 ICD ow] EUR Du 
xu d a nt JAD BI E mu Eri UR xus ELzis,Tj。 那 么 ,可 以 为 节点 构造 一 
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个 长 度 为 2wT HEE u= Gui sus ttt usur). ,其 中 , 若 j 一 ze 十 (2 一 2)T 或 者 ]j 一 zi 十 
(2 一 1) 开 , 则 已 王 1 否则 心 天 0。 类 似 地 ,也 为 检索 区 间 构 造 一 个 长 度 为 2wT 的 向 量 v= 
Cui «v2 stt veu HK j€ [19-4 DT 35, + (2i 22 T] EE j € (a+ Gi — D T. 
2iT], W vj =0, FN y=1. R.A ue v= 二 0, 则 两 个 矩形 相交 。 为 了 在 保护 向 量 信 息 的 
同时 判断 向 量 内 积 结 果 是 否 为 0, 使 用 SSW 加 密 技 术 来 分 别 加 密 两 个 向 量 ,这 里 不 再 详 述 
具体 的 步 又 。 

由 于 在 检索 过 程 中 ,服务 器 仅 获知 节点 与 检索 条 件 是 否 相交 ,而 且 R 树 不 会 泄露 数据 
的 大 小 顺序 ,因此 ,上 述 方案 的 安全 性 很 高 。 但 是 ,该 方案 的 检索 效率 较 低 ,不 适用 于 检索 精 
度 较 高 的 数据 。 此 外 ,文献 L59,60] 还 分 别提 出 了 两 种 针对 二 维 数据 的 几何 图 形 检 索 方 法 。 

相应 地 ,在 非 对 称 密 钥 场景 下 ,还 有 学 者 提出 了 基于 公 钥 谓词 加 密 技术 的 密 文 区 间 检 索 
方案 中。 但 是 由 于 公 钥 谓词 加 密 本 身 的 特性 ,这 些 方案 无 法 保护 陷 门 安全 ,因此 ,本 节 对 
BOR BERGE 


3.5.3 基于 和 矩阵 加 密 的 方案 


和 矩阵 加 密 是 密 文 区 间 检 索 方案 中 一 种 常用 的 对 称 加 密 技 术 , 用 于 安全 地 计算 两 个 向 量 
的 内 积 。 与 谓词 加 密 技 术 相 比 ,矩阵 加 密 具 有 实现 简单 .运算 效率 高 .适用 于 处 理 高 精度 数 
据 等 优势 ,但 是 安全 性 较 差 。 针 对 不 同 的 安全 目标 ,不 同 的 密 文 区间 检 索 方案 对 和 矩阵 加 密 的 
实现 细节 了 略 有 不 同 , 但 是 基本 思路 一 致 。 因 此 ,本 节 将 文献 [64-68] 中 和 矩阵 加 密 的 具体 实现 
进行 综合 ,详细 介绍 基础 的 矩阵 加 密 方案 及 其 安全 性 。 

假设 d 为 向 量 的 维度 ,需要 计算 数据 向 量 PER “与 查询 向 量 OER“ 的 内 积 。 基 础 的 矩 
阵 加 密 方案 的 工作 流程 如 下 : 

(1) ASPE. setup(d): 输出 一 个 dX d 的 可 逆 和 矩阵 M 。 

(2) ASPE. data enc(P. MD : fih P—M"P, 

(3) ASPE. query. enc(Q. MD : 输出 O=M-IO。 

易 知 : 

P.O0=MP.M'QO= (WPM^Q—P'MM^Q—P'Q—P-*Q 

密 文 向 量 保留 了 明文 向 量 的 内 积 。 

显然 ,基础 的 矩阵 加 密 方案 安全 性 较 差 。 假 设 攻击 者 已 知 怀 组 明 密 文 数据 向 量 对 {(CP， ， 


PO ,(P;,P,),…,(P,,P,)) 以 及 密 文 查询 向 量 @, 为 计算 明文 查询 向 量 2, 攻 击 者 可 以 构造 
如 下 等 式 组 : 











P11.0=P..Q 
P.-Q—DP.-Q 


P,-Q=P,-@ 
以 上 等 式 组 中 ,等 号 左边 的 未 知 参数 共 d 个 ,而 等 号 右边 均 为 常数 。 因 此 ,只 要 攻击 者 拥有 
EN d 组 线性 不 相关 的 明 密 文 数据 向 量 对 ,就 可 以 得 到 任意 明文 查询 向 量 。 同 样 , 当 攻击 
者 拥有 足够 多 的 明 密 文 查询 向 量 对 时 ,也 可 以 得 到 任意 明文 数据 向 量 。 
然而 ,在 大 部 分 基于 和 矩阵 加 密 的 区 间 检 索 方 案 中 "中 ,只 需要 判断 向 量 内 积 的 正 负 性 ， 
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随机 数 等 方式 对 矩阵 加 密 进 行 改进 ,使 得 其 可 以 抵抗 上 述 攻击 ,这 里 不 再 袭 述 。 

文献 [65] 使 用 矩阵 加 密 技术 ,实现 了 一 种 可 以 对 单 维 区 间 进 行 密 文 检索 的 方案 ,该 方案 
为 各 记录 分 别 构造 索引 ,在 检索 时 对 密 文 索引 进行 线性 扫描 。 首 先 ,给 出 如 下 定理 和 推论 。 

定理 3-4 如 图 3-8 所 示 , 已 知 在 一 个 原点 为 O 的 坐标 系 中 存在 一 个 单位 圆 , 上 半圆 周 
EH A,B,C 3 个 不 同 的 点 ,OA A OBOB 和 OC、OA 和 OC 的 夹 角 分 别 为 9, 、9,、9,, 其 中 
0-8,— x.i—1.2.3, JE . 4 AMY cosh; — cost; cost; ,OB 位 于 OA 和 OC 之 间 ( 仅 考虑 上 
半圆 ) 。 








图 3-8 单位 圆 不 同 半径 位 置 关系 


推论 3-1 已 知 在 一 个 原点 为 O 的 坐标 系 中 存在 一 个 圆 , 上 半圆 周 上 有 V、VL、Vn 3 个 
不 同 的 点 ,OV、OVL .OV 与 横 坐 标的 夹 角 分 别 是 0.0, .bn ,其 中 0 二 0,0.,904 二 x。 那 么 当 且 
仅 当 cos(On — 0L) — cos(0— 0, ) cos(0— u) H$ 0, <0<Ou o 

基于 以 上 定理 以 及 推论 ,可 以 将 区 间 判 断 映 射 为 单 断言 。 假 设 属性 值 域 为 [一 D,D]， 
如 图 3-9 所 示 , 值 映射 函数 Fo) =0= arccos T (Hv 映射 为 角度 0。 由 于 该 映射 函数 在 
vE[ 一 D,D] 时 是 单调 递增 的 ,那么 对 于 任意 ww 记 v, ,vi ,vsE[ 一 D,D], 其 对 应 的 映射 角度 
0, ,0 必然 满足 二 0 ,91,90; EL0,x]。 因 此 ,对 于 属性 值 v 和 检索 区 间 (vw svn) vE Cor vn) 
的 充分 必要 条 件 是 4 一 0 一 ba , 即 cos(04 一 9.) 二 cos(0 一 QL.)cos(9 一 4)。 通 过 如 下 公式 ,可 
以 将 判断 条 件 中 的 9 与 9. .ba 进行 分 离 ,然后 使 用 矩阵 加 密 对 其 进行 保护 : 





cos, 

cos(0 — 0L) = cosÓ cosh, + sinf sind, = [cos sing]| . 
sin, 
" . . cosOy 

cos(@— ĝu) = cosh cosy + sinô sindy = [cosg sing]| . 
sindy 


1 
1 
1 
1 
1 
1 
1 
I 
rg 
-D O -v D 
图 3-9 值 的 圆周 映射 
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具体 的 密 文 单 维 区 间 检 索 方案 步骤 如 下 : 
(1) Setup: 输出 一 个 2X2 的 可 逆 和 矩阵 M. 


s0 g 
(2) BuildIndexCv. MD ; 计算 得 到 9=F(v) 以 及 =|% | iiim wr. 
- , " cosô, 
(3) GenTrapdoor(vL ,va MO : WRA 0 =F), 0 — FCo VAR. T, — | i | 
sind, 


sO; P x 

T= [Tr | 同时 计算 Tange = cos (Oa — ) ,运行 矩阵 加 密 运算 得 到 二 M71T,, Pa = 
sindy 

M^ Tu ,输出 全 = (Ty Te Tuas) SEPT, Ty FEARED WP IRE MALT, .和 ,其 对 应 关系 是 随 

机 的 。 


(A) Search C1, T) : 进行 单 断 言 Ta <A e TOA 五) 判断 ,如 果 为 真 , 则 输出 1, 否则 
输出 0。 

由 于 上 述 方案 为 各 记录 分 别 构造 索引 ,因此 ,检索 时 ,也 需要 依次 判断 各 记录 是 否 满足 
检索 条 件 , 即 该 方案 的 检索 效率 与 记录 数目 成 正比 。 

为 实现 次 线性 检索 并 支持 数据 的 动态 更 新 ,文献 [67] 设 计 了 一 种 基于 自 适应 索引 的 密 
文 单 维 区 间 检 索 方 案 。 自 适应 索引 的 特点 是 可 以 根据 检索 条 件 动态 地 索引 数据 : 在 初始 阶 
段 ,数据 是 无 序 存储 的 ; 当 用 户 提 交 第 一 个 检索 条 件 (a,5) 时 ,服务 器 会 根据 数据 与 检索 条 件 
的 关系 将 其 分 为 3 部 分 ,即位 于 区 间 ( 一 cc ,oj 的 ,位 于 区 间 (a,o) 的 以 及 位 于 区 间 [2, 十 cc) 
的 ; 当 用 户 提 交 第 二 个 检索 条 件 (a ,5 ) 时 ,服务 器 将 数据 再 次 细 分 ;以 此 类 推 。 在 自 适应 索 
引 中 ,位 于 同一 部 分 的 数据 是 无 序 存储 的 ,但 各 部 分 之 间 是 有 序 排列 的 。 当 用 户 进行 检索 
时 ,服务 器 只 需要 搜索 与 检索 条 件 相交 的 部 分 ,不 需要 扫描 全 部 数据 。 根 据 自 适应 索引 的 构 
建 以 及 检索 过 程 ,服务 器 的 主要 操作 是 判断 值 v 与 检索 条 件 的 边界 w 之 间 的 大 小 关系 。 对 
此 ,为 值 v 生 成 向 量 (v, 一 1) ,为 边界 zw 生成 向 量 (1,z) ,两 个 向 量 的 内 积 即 为 v 一 w, 并 使 用 
和 矩阵 加 密 技术 保护 向 量 。 显 然 , 随 着 用 户 检索 次 数 的 增加 ,数据 的 划分 会 越 来 越 细 微 ,检索 
效率 也 会 越 来 越 高 ,但 是 数据 顺序 的 泄露 也 会 逐渐 严重 。 所 以 ,文献 [67] 提 出 为 各 敏感 记录 
分 别 构造 一 个 真实 索引 和 一 个 虚假 索引 ,由 于 服务 器 无 法 区 分 这 二 者 的 真 假 性 ,从 而 无 法 确 
定 记录 所 在 的 区 间 , 其 后 果 是 检索 结果 中 存在 50% 的 元 余数 据 。 

对 于 多 维 区 间 场 景 ,文献 [66] 提 出 了 一 种 基于 R 树 和 和 矩 阵 加 密 的 密 文 检索 方案 。 该 方 
案 中 ,首先 为 数据 集 构造 R 树 , 然 后 将 各 节点 对 应 的 超 和 矩形 分 别 加 密 , 同 时 保留 父子 节点 之 
间 的 连接 关系 。 在 检索 时 ,从 根 节点 开始 ,如 果 某 个 非 叶子 节点 与 检索 条 件 相 交 , 则 继续 搜 
索 其 孩子 节点 ,否则 停止 搜索 该 分 支 ; 如 果 某 个 叶子 节点 与 检索 条 件 相 交 , 则 返回 其 连接 的 
所 有 记录 ,否则 忽略 此 节点 。 可 见 , 在 搜索 密 文 R 树 时 ,基本 的 操作 是 判断 两 个 密 文 超 和 矩形 
(节点 和 检索 区 间 ) 是 否 相交 。 为 解决 这 个 问题 ,可 以 将 一 个 d 维 查询 超 和 矩形 看 作 一 个 由 2d 
个 超 平面 围 成 的 区 域 , 通 过 判断 节点 超 矩 形 的 两 个 顶点 与 各 超 平面 之 间 的 关系 , 即 可 判断 节 
点 是 否 与 检索 条 件 相交 。 下 面 介 绍 具体 思路 。 

首先 ,介绍 超 平面 和 半空 间 的 概念 。 假 设 全 部 满足 等 式 a x=) HY x ER 构成 了 超 平 
m H.P aE R*,a 关 0,5ER。 如 图 3-10 AR. EFE H 将 空间 分 成 了 两 个 半空 间 有 H< 和 
H^ ,内 半空 间 HS 中 的 点 满足 aTx 才 5b; 而 外 半空 间 H> 中 的 点 则 满足 azx 二 0。 为 这 两 个 半 








第 3 章 安全 检索 技术 38 


空间 各 选取 一 个 锚 点 w^ € HS Al w^ € H^ ,并 且 ws w^ But rh H 的 距离 相等 ,同时 ws 、 
w> 连接 的 线段 与 超 平面 瓦 垂 直 。 需 要 注意 的 是 , 锚 点 的 选取 并 不 是 唯一 的 ,只 要 满足 上 述 
限制 条 件 即 可 。 显 然 , 内 半空 间 HS 中 的 点 距离 锚 点 w 更 近 ( 例 如 图 3-10 中 的 点 了) ,外 半 
空间 H^ "PAS ARE ES ER w^ 更 近 ( 例 如 图 3-10 中 的 点 V，)。 因 此 ,给 定 空 间 中 的 一 个 点 V， 
可 以 通过 比较 其 与 锚 点 ws w^ 的 距离 来 判断 该 点 位 于 哪个 半空 间 。 

对 于 d 维 检索 条 件 Q ,可 以 将 其 看 作 一 个 由 24 A EE EH aHa i Hwa 围 成 的 区 域 ， 
A Q=HE NHS He. WA 3-11 所 示 ,一 个 2 维 检索 条 件 Q 由 4 个 超 平面 Hi 、H;、 
Hs. Hy 确定 ,而 每 个 超 平面 H; 又 对 应 两 个 锚 点 wF 、w? 。 














wi; H wt H 
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H 
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V. 
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图 3-10 超 平面 和 半空 间 示意 图 图 3-11 由 超 平面 确定 的 矩形 


对 于 节点 R, 则 由 其 左下 顶点 Vio 和 右上 顶点 Var 确定 。 如 果 对 于 某 个 超 平面 His Vip 
和 Ver 均 位 于 H? BN Vip Al Ver PES w 更 近 , 则 节点 R 和 检索 条 件 Q 不 相交 ,和 否则 二 者 
HAZE 

综 上 , 密 文 矩形 相交 判定 问题 的 关键 操作 是 点 之 间 的 距离 判定 ,对 于 后 者 ,可 以 使 用 文 
献 [64] 提 出 的 方案 。 假 设 维度 为 d, 顶 点 为 YER", 超 平面 了 H 对 应 的 锚 点 为 w* w ,使 用 
如 下 步骤 来 判断 项 点 V 是 否 位 于 内 半空 间 HT : 

COD setup: 输出 一 个 (Cd 二 1) X(Cd 二 1) 的 可 逆 和 矩阵 M. 

(2) vertex_enc(V,MD) : 将 顶点 V 进行 扩展 ,得 到 V+ — (VT [DT Mii V — M? Vu. 

(3) anchor. enc w^ , w^ . MO : 将 锚 点 w^ w^ 分 别 进行 扩展 ,得 到 wt = Cw )T | 
(—0. 5) || ws || DOT we —C(QO707|€—0.5 |] w? || 0T. HH An =M™ ws —MIwi. 

HF An V— OM we —M' wi)! M? V. = QE WV. = || we —W | — I we —V I ,因此 ， 


如 果 Ay VV 宇 0, 则 顶点 V 位 于 内 半空 间 HT VI. 
对 于 密 文 矩形 相交 判定 问题 ,假设 节点 为 尽 , 检 索 条 件 为 Q, 具 体 步骤 如 下 : 
COD setup: 输出 一 个 (Cd 二 1) X (4d 十 1) 的 可 道 和 矩阵 M. 


(2) node enc(R. MD : 计算 得 到 Vi 一 vertex_enc(Vin, M) Ver = vertex. enc(Vgz M), 


其 中 Vip ,Vrr 分 别 为 节点 R 的 左下 顶点 和 右上 顶点 ,输出 R= {Vip ,Vrr)。 
(3) query. encCQ. MO : 为 检索 条 件 Q 对 应 的 各 超 平面 H ; 1i 2d 选 定 两 个 锚 点 


ws .we ,计算 得 到 Ay, =anchor_enc(ws ,w? .M) ,输出 0= An, «An, +77 +An,, } o 
(4) xsect(R,O) : 若 存 在 i, 使 得 Vin .Var 均 位 于 超 平面 H, 的 外 半空 间 HT , 则 输出 0， 
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对 于 节点 R, 则 由 其 左下 顶点 Vio 和 右上 顶点 Var 确定 。 如 果 对 于 某 个 超 平面 His Vip 
和 Ver 均 位 于 H? BN Vip Al Ver PES w 更 近 , 则 节点 R 和 检索 条 件 Q 不 相交 ,和 否则 二 者 
HAZE 

综 上 , 密 文 矩形 相交 判定 问题 的 关键 操作 是 点 之 间 的 距离 判定 ,对 于 后 者 ,可 以 使 用 文 
献 [64] 提 出 的 方案 。 假 设 维度 为 d, 顶 点 为 YER", 超 平面 了 H 对 应 的 锚 点 为 w* w ,使 用 
如 下 步骤 来 判断 项 点 V 是 否 位 于 内 半空 间 HT : 

COD setup: 输出 一 个 (Cd 二 1) X(Cd 二 1) 的 可 逆 和 矩阵 M. 

(2) vertex_enc(V,MD) : 将 顶点 V 进行 扩展 ,得 到 V+ — (VT [DT Mii V — M? Vu. 

(3) anchor. enc w^ , w^ . MO : 将 锚 点 w^ w^ 分 别 进行 扩展 ,得 到 wt = Cw )T | 
(—0. 5) || ws || DOT we —C(QO707|€—0.5 |] w? || 0T. HH An =M™ ws —MIwi. 

HF An V— OM we —M' wi)! M? V. = QE WV. = || we —W | — I we —V I ,因此 ， 


如 果 Ay VV 宇 0, 则 顶点 V 位 于 内 半空 间 HT VI. 
对 于 密 文 矩形 相交 判定 问题 ,假设 节点 为 尽 , 检 索 条 件 为 Q, 具 体 步骤 如 下 : 
COD setup: 输出 一 个 (Cd 二 1) X (4d 十 1) 的 可 道 和 矩阵 M. 


(2) node enc(R. MD : 计算 得 到 Vi 一 vertex_enc(Vin, M) Ver = vertex. enc(Vgz M), 


其 中 Vip ,Vrr 分 别 为 节点 R 的 左下 顶点 和 右上 顶点 ,输出 R= {Vip ,Vrr)。 
(3) query. encCQ. MO : 为 检索 条 件 Q 对 应 的 各 超 平面 H ; 1i 2d 选 定 两 个 锚 点 


ws .we ,计算 得 到 Ay, =anchor_enc(ws ,w? .M) ,输出 0= An, «An, +77 +An,, } o 
(4) xsect(R,O) : 若 存 在 i, 使 得 Vin .Var 均 位 于 超 平面 H, 的 外 半空 间 HT , 则 输出 0， 
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否则 输出 1 。 

在 该 方案 中 ,由 于 会 泄露 顶点 位 于 某 超 平面 划分 的 哪个 半空 间 , 因 此 会 泄露 节点 间 的 顺 
序 关系 。 对 此 ,文献 [68] 对 上 述 方案 进行 了 改进 ,在 保护 数据 顺序 特征 的 同时 提高 了 检索 
效率 。 

对 比 矩 阵 加 密 和 谓词 加 密 , 基 于 矩阵 加 密 的 方案 的 安全 性 普遍 比 基 于 谓词 加 密 的 方案 
差 。 但 是 由 于 算 阵 加 密 的 主要 操作 为 向 量 内 积 计 算 ,而 谓词 加 密 为 双 线 性 运算 ,使 得 矩阵 加 
密 可 以 方便 地 处 理 实数 ,而 谓词 加 密 仅 能 处 理 整 数 。 因 此 ,和 矩阵 加 密 在 索引 存储 空间 、 陷 门 
大 小 和 检索 效率 等 方面 更 有 优势 。 


3.5.4 基于 等 值 检 索 的 方案 


基于 等 值 检索 的 密 文 区 间 检 索 方案 的 核心 思想 : 将 区 间 检 索 转换 为 等 值 检索 ,然后 使 
用 现 有 的 基于 关键 词 -文档 索引 的 密 文 关键 词 检索 方案 完成 查询 。 将 区 间 检 索 转 换 为 关键 
HWER ,有 利于 将 这 两 种 检索 方式 进行 结合 。 直 观 上 ,可 以 将 每 个 属性 值 看 作 一 个 关键 词 ， 
然后 通过 枚 举 检索 区 间 内 的 属性 值 ,直接 将 区 间 检 索 转 换 为 多 轮 等 值 检索 ,然而 这 种 方法 不 
适用 于 处 理 数值 精度 较 高 或 者 检索 区 间 较 大 的 情况 。 因 此 ,研究 者 希望 可 以 将 检索 区 间 映 
射 为 少量 关键 词 , 从 而 限制 陷 门 的 大 小 。 本 节 主 要 介绍 3 种 将 单 维 区 间 检 索 转换 为 等 值 检 
索 的 方法 s eo .es ,具体 可 参考 文献 [69]。 注 意 ,下 文 均 假设 属性 值 域 为 Zw 。 

方案 e, 的 主要 思路 是 : 将 各 种 可 能 的 检索 区 间 看 作 一 个 关键 词 , 各 关键 词 对 应 的 数据 
集合 即 为 属性 值 属于 该 区 间 的 记录 集合 。 检 索 时 ,只 需要 查找 检索 区 间 对 应 的 关键 词 即 可 。 
S m=2" ,假设 共有 nn 条 记录 ,由 于 任意 属性 值 属于 OGm?) 个 区 间 , 则 此 方法 的 存储 空间 将 
高 达 O(nm? ) 。 

为 将 存储 空间 最 小 化 ,人 们 又 提出 了 方案 e;。 在 描述 具体 的 方案 之 前 ,首先 介绍 一 个 新 
知识 一 一 可 授权 伪 随 机 函数 (Delegatable Pseudo Random Function, DPRF)。DPRF 是 伪 
随机 函数 的 一 种 改进 版 本 ,其 除了 拥有 伪 随 机 函数 所 具备 的 特点 外 ,还 拥有 如 下 性 质 : 给 定 
一 个 密 钥 为 的 可 授权 伪 随 机 函数 f ,拥有 密 钥 的 用 户 可 以 授权 另 一 个 没有 密 钥 的 用 户 
计算 某 些 特定 值 对 应 的 DPRF ff. 

具体 地 ,DPRF 可 以 通过 伪 随 机 数 生成 器 实现 。 定 义 伪 随 机 数 生成 器 G: {0,1} —> (0, 
1)? ,其 输入 为 比特 的 值 zx ,输出 为 两 个 X HE BELEK Go (WRG (x), WARP IE 
H a=aia tao ,其 DPRF HH f Carian ao) = Ga, CH OG, (CR))) ,其 中 种 子 & 即 
为 函数 密 钥 。 例 如 ,使 用 3 比特 将 值 6 表示 为 110, 则 f10)=G (G (G CR)))。 易 见 ,在 
图 3-7 所 示 的 线段 树 中 , 当 给 定 某 个 非 叶子 节点 的 DPRF 值 v 时 ,即使 服务 器 没有 密 钥 ,也 
可 以 计算 出 该 节点 的 左 孩子 对 应 的 DPRF fE Go Co 和 右 孩 子 对 应 的 DPRF 值 G, Co) ,进而 
计算 出 该 节点 包含 的 所 有 叶子 节点 (属性 值 ) 对 应 的 DPRF 值 。 

综 上 ,方案 e 将 各 属性 值 看 作 一 个 关键 词 ,关键 词 对 应 的 密 文 即 为 属性 值 的 DPRF fü. 
检索 时 ,用 户 需 要 计算 线段 树 中 覆盖 且 仅 覆盖 检索 区 间 的 最 小 节点 集合 ,并 将 这 些 节 点 对 应 
的 DPRF 值 发 送 给 服务 器 ,随后 服务 器 计算 出 这 些 节 点 包含 的 所 有 叶子 节点 的 DPRF fü. 
即 需 要 返回 的 关键 词 的 密 文 。 该 方案 的 缺点 在 于 会 直接 泄露 某 个 节点 下 叶子 节点 之 间 的 排 

为 在 存储 空间 和 安全 性 之 间 进 行 平衡 ,方案 es 同样 使 用 线段 树 中 的 节点 来 表示 属性 值 
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和 检索 区 间 ,但 不 同 的 是 , 令 每 个 节点 对 应 一 个 关键 词 。 如 图 3-7 所 示 ,假设 属性 值 域 为 [0， 
7] ,属性 值 为 5 的 记录 对 应 的 关键 词 即 为 节点 101.10”、1” 一 对 应 的 关键 词 。 检 索 时 ,假设 
检索 区 间 为 [1,6], 其 对 应 的 最 小 节点 集合 为 {001,01* ,10* ,110}, 则 分 别 使 用 这 些 节 点 对 
应 的 关键 词 进行 单 关键 词 检索 ,最 后 对 两 次 检索 结果 求 并 集 。 

由 于 方案 es 将 检索 区 间 拆 分 为 多 个 不 相交 的 区 间 , 在 进行 多 次 检索 后 ,可 能 会 泄露 各 
区 间 之 间 的 顺序 关系 。 因 此 ,需要 对 线段 树 进行 改进 , 人们 提出 了 TDAG (Tree-like 
Directed Acyclic Graph, 树 状 有 向 无 环 图 ) 树 。 如 图 3-12 所 示 ,在 线段 树 的 基础 上 ,在 每 两 
个 同 层 节点 间 插 入 一 个 新 的 节点 (如 在 00* 和 01* 之 间 插 入 00* -01* ) ,该 新 节点 又 关联 着 
下 层 的 两 个 节点 (如 00* -01* 连接 着 001 M010), TDAG 树 的 特点 在 于 ,对 于 长 度 为 R 的 
检索 区 间 ,一 定 存在 一 个 可 以 将 其 完全 覆盖 的 节点 , 且 此 节点 对 应 区 间 的 长 度 为 O(R)。 可 
见 , 在 改进 的 方案 中 ,检索 时 只 需要 在 TDAG 树 中 找到 一 个 满足 上 述 条 件 且 层 数 最 低 的 节 
点 来 表示 检索 条 件 即 可 ,从 而 以 引入 宛 余 数据 为 代价 ,提高 了 安全 性 。 








000 001 010 011 100 10 110 111 
图 3-12 TDAG 树 示 意图 


3.5.5 基于 保 序 加密 的 区 间 检 索 


保 序 加 密 (Order-Preserving Encryption, OPE) 是 一 种 保持 数值 顺序 关系 的 加 密 算法 ， 
其 算法 本 身 可 以 应 用 于 各 种 场景 ,并 不 仅 限于 区 间 检 索 。 

定义 3-13( 保 序 加 密 ) ”给 定 加 密 算法 ,如果 对 于 任何 密 钥 k 以 及 数值 数据 zx A yo 
EE E, GO E, C) UB E EJF H o 

文献 L[70] 首 次 提出 了 保 序 加密 的 概念 ,并 给 出 了 一 种 不 泄露 明文 概率 分 布 的 保 序 加 密 
方案 。 该 方案 支持 用 户 指定 一 个 目标 概率 分 布 作为 输入 ,在 保证 密 文 顺序 与 明文 顺序 一 致 
的 同时 ,使 得 密 文 数据 遵循 指定 的 目标 概率 分 布 , 而 与 明文 概率 的 分 布 无 关 。 该 加 密 方案 的 
主要 思想 :首先 将 明文 集合 的 数值 扁平 化 ,然后 再 按照 指定 的 目标 概率 分 布 进行 压缩 输出 。 

文献 [71J 首 次 对 保 序 加 密 做 出 了 严格 的 安全 定义 和 分 析 , 并 指出 : 对 于 保 序 加 密 算法 ， 
理想 安全 性 即 除了 顺序 以 外 不 泄露 任何 其 他 信息 ,这 种 理想 安全 性 称 为 按 序 选择 明文 攻击 
下 不 可 区 分 性 (INDistinguishability under Ordered Chosen-Plaintext Attack,IND-OCPA)。 
但 实际 上 ,IND-OCPA 是 不 实用 的 ,因为 实现 IND-OCPA 需要 的 密 文 长 度 随 明文 长 度 呈 指 
数 关系 增长 ,其 效率 很 低 。 
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由 于 本 身 的 保 序 特 性 , 保 序 加 密 很 难保 证 数据 的 隐私 性 。 文 献 L72] 指 出 ,即使 是 达到 
IND-OCPA 安全 性 的 保 序 加 密 算法 ,也 无 法 抵御 具备 特定 背景 知识 的 敌手 的 攻击 。 文 献 
[73] 提 出 : 车 使 用 场景 对 安全 性 要 求 较 高 ,同时 应 用 中 又 有 比较 密 文 顺序 的 需求 , 则 可 以 考 
虑 将 保 序 加 密 弱 化 为 显 序 加 密 (Order-Revealing Encryption)。 显 序 加 密 是 函数 加 密 的 一 
种 ,需要 提供 一 个 额外 的 陷 门 函数 才能 比较 密 文 的 顺序 关系 ,因此 安全 性 较 保 序 加 密 更 高 。 
但 是 就 区 间 检 索 这 个 应 用 场景 而 言 ,服务 器 是 无 法 在 一 次 比较 内 完成 一 次 检索 响应 的 。 因 
此 ,如 果 使 用 显 序 加 密实 现 密 文 区 间 检 索 , 则 不 可 避免 地 需要 客户 端 与 服务 器 端 多 次 交互 ， 
或 者 客户 端 事先 存储 大 量 的 元 数据 ,导致 较 高 的 检索 代价 。 


3.5.6 小 结 


在 早期 的 密 文 区 间 检 索 方案 中 ,基于 桶 式 索 引 的 方案 采用 方差 和 炉 来 衡量 方案 的 安全 
性 ,其 安全 程度 是 难以 证 明 的 ,而 且 这 些 方案 的 安全 性 以 检索 结果 中 包含 大 量 的 元 余数 据 为 
代价 。 此 外 ,基于 桶 式 索引 的 方案 需要 将 索引 保存 在 本 地 ,并 由 用 户 进行 检索 ,这 使 得 方案 
的 检索 效率 极 大 地 依赖 于 客户 端的 存储 和 计算 能 力 。 基 于 传统 加 密 技 术 的 方案 的 安全 性 主 
要 依赖 于 采用 的 加 密 机 制 ,因此 安全 性 较 高 。 但 是 ,这 类 方案 需要 客户 端 和 服务 器 进行 多 轮 
交互 ,并 由 客户 端 对 节点 进行 解密 ,从 而 使 得 检索 效率 不 仅 受到 客户 端 计算 能 力 的 限制 , 同 
样 也 受到 网 络 延 时 的 影响 。 可 见 , 早 期 方案 虽然 简单 易 实现 ,但 是 安全 性 和 效率 上 的 缺陷 阻 
碍 了 其 在 现实 场景 中 的 应 用 。 

由 于 谓词 加 密 方案 本 身 实现 了 可 证 明 安 全 ,因此 ,基于 谓词 加 密 的 密 文 区 间 检 索 方 案 普 
遍 安 全 性 较 高 。 但 是 其 基本 运算 操作 为 双 线 性 映射 ,从 而 检索 效率 较 低 ,不 适用 于 处 理 高 维 
JE .高 精度 数据 。 基 于 矩阵 加 密 的 方案 虽然 安全 性 不 如 谓词 加 密 方案 ,但 是 其 基本 运算 操作 
为 乘法 和 加 法 ,因此 ,检索 效率 较 高 , 且 可 以 方便 地 处 理 高 精度 数据 。 由 于 谓词 加 密 和 和 抢 阵 
加 密 的 功能 都 是 实现 内 积 运算 ,因此 ,这 两 种 技术 通常 可 以 互 换 , 而 不 影响 方案 的 正确 性 ,但 
需要 注意 的 是 谓词 加 密 方案 仅 能 处 理 整数 。 除 了 加 密 技术 外 ,检索 采用 的 树 结 构 和 判断 条 
件 也 会 影响 方案 的 安全 性 。 例 如 BHA kd 树 本 身 会 泄露 数据 的 排序 关系 ,而 R 树 则 不 具 
有 这 个 缺陷 ,但 是 在 文献 [66] 中 ,判断 检索 条 件 与 R 树 节点 是 否 相交 的 过 程 却 泄露 了 部 分 
排序 特征 。 

基于 等 值 检索 的 方案 灵活 性 较 大 ,根据 用 户 对 于 安全 性 ,效率 和 存储 空间 的 要 求 , 可 以 
采用 不 同 的 关键 词 构造 方式 。 由 于 这 类 方法 主要 基于 密 文 关键 词 检索 方案 ,因此 ,容易 将 区 
间 检 索 和 关键 词 检 索 相 结合 

保 序 加 密 由 于 其 本 身 的 特征 ,使 得 密 文 直接 泄露 了 明文 的 排序 特征 ,因此 安全 性 较 低 。 
但 是 对 于 经 过 保 序 加 密 的 数据 ,可 以 使 用 任意 明文 数据 结构 和 检索 方式 对 其 进行 检索 ,所 以 
在 安全 性 要 求 不 高 的 场景 中 , 保 序 加 密 具 有 良好 的 表现 。 











3.6 注 记 与 文献 


本 章 围绕 大 数据 环境 对 几 种 安全 检索 技术 进行 了 介绍 ,具体 包括 密 文 检索 技术 、PIR 技 
术 、ORAM 技术 等 。 这 些 技术 的 保护 目标 有 所 不 同 ,在 实际 应 用 中 也 可 适当 结合 。 
密 文 检索 技术 主要 用 于 保护 用 户 的 敏感 数据 和 查询 条 件 。 根 据 不 同 的 应 用 场景 不 同 
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的 数据 类 型 , 密 文 检索 方案 种 类 繁多 ,研究 路 线 也 不 尽 相 同 。 本 章 以 对 称 密 文 检索 为 主 , 分 
别 介绍 了 关键 词 检索 和 区 间 检 索 两 大 类 方案 。 

首 个 密 文 检索 方案 由 Song 等 上 四 提出 ,该 方案 由 密 文 本 身 实 现 关键 词 检索 。 由 于 密 文 
索引 一 体 的 方案 在 检索 效率 上 的 不 足 , 后 续 研 究 基 本 都 是 基于 索引 的 。 从 索引 构造 的 角度 ， 
密 文 关键 词 检索 方案 又 可 以 进一步 分 为 基于 文档 -关键 词 索引 的 方案 和 基于 关键 词 -文档 索 
引 的 方案 。 其 中 前 者 的 检索 效率 与 文档 数目 为 线性 关系 ,而 后 者 则 与 检索 结果 的 数目 相关 。 
因此 ,目前 研究 者 主要 研究 基于 关键 词 -文档 索引 的 方案 。 根 据 实际 应 用 需求 ,又 在 单 关 键 
词 检 索 的 基础 上 衍生 出 了 多 关键 词 检 索 ,模糊 检索 、Top-k 检索 以 及 多 用 户 SSE。 在 安全 性 
方面 ,当前 方案 大 多 采用 Curtmola 4RUS 提出 的 安全 性 定义 。 但 正如 Cash FU je Hy AP 
样 , 当 攻 击 者 拥有 一 定 的 背景 知识 时 ,当前 方案 依然 会 泄露 敏感 信息 。 因 此 ,如 何 进一步 提 
高 密 文 关键 词 检索 的 安全 性 依然 是 一 个 需要 解决 的 问题 。 

早期 的 密 文 区 间 检 索 技术 主要 是 基于 桶 式 索 引 和 传统 加 密 技 术 的 ,这 些 方案 在 安全 性 
和 效率 方面 存在 较 大 不 足 。 目 前 流行 的 密 文 区 间 检 索 方案 主要 是 基于 谓词 加 密 的 基于 憩 
阵 加 密 的 、 基 于 等 值 检索 的 以 及 基于 保 序 加 密 的 。 由 于 谓词 加 密 和 答 阵 加 密 都 可 用 于 计算 
向 量 内 积 , 因 此 ,这 两 类 方案 在 构造 上 相似 度 较 高 。 在 基于 保 序 加 密 的 方案 中 , 密 文 直接 泄 
露 了 明文 的 顺序 特征 ,因此 ,该 类 方案 仅 适 用 于 安全 需求 较 低 的 应 用 场景 。 等 值 检索 的 核心 
思想 是 将 区 间 检 索 转 换 为 关键 词 检索 ,方便 了 区 间 检 索 和 关键 词 检索 的 结合 ,但 是 目前 方案 
还 需要 在 安全 性 和 检索 效率 之 间 更 加 合理 地 进行 平衡 。 

非 对 称 密 文 检索 通常 是 借助 某 种 基于 身份 的 加 密 系统 构造 的 ,设计 思路 与 对 称 密 文 检 
索 的 区 别 较 大 。 此 外 ,对 称 密 文 检索 方案 大 多 是 基于 双 线 性 映射 的 ,因此 ,检索 效率 通常 
RE, 

除 密 文 检索 以 外 ,本 章 还 简单 介绍 了 PIR 技术 和 ORAM 技术 ,其 中 PIR 技术 用 于 保护 
用 户 的 查询 意图 ,而 ORAM 技术 用 于 保护 访问 模式 。 将 密 文 检索 技术 和 ORAM 技术 相 结 
合 ,可 以 进一步 提高 密 文 检索 方案 的 安全 性 ,但 是 ORAM 技术 的 使 用 会 极 大 地 影响 检索 
效率 。 
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第 4 章 ”安全 处 理 技术 


内 容 提要 : 第 3 章 介 绍 了 如 何 对 加 密 数据 进行 安全 检索 的 技术 ,但 在 实际 应 用 中 这 一 
点 还 远 远 不 够 ,人 们 期 望 在 加 密 数 据 上 进行 分 析 处 理 并 返回 处 理 结果 ,同时 还 要 确保 数据 和 
处 理 都 是 安全 的 。 本 章 就 这 一 话题 ,针对 大 数据 环境 介绍 一 些 主 要 的 安全 处 理 技 术 , 包 括 同 
态 加 密 、 可 验证 计算 、 安 全 多 方 计算 、 函 数 加 密 和 外 包 计 算 等 技术 。 这 些 技术 可 用 于 数据 安 
全 处 理 的 不 同 环境 中 , 同 态 加 密 技 术 可 用 于 处 理 加 密 数 据 而 维持 数据 的 机 密 性 ;可 验证 计算 
技术 可 用 于 处 理 数 据 并 可 检测 计算 的 完整 性 ;安全 多 方 计算 可 用 于 参与 方 共同 完成 一 个 分 
布 式 计算 而 参与 方 之 间 不 会 泄露 各 自 的 敏感 输入 并 可 确保 计算 的 正确 性 ;函数 加 密 技 术 可 
使 得 一 个 数据 拥有 者 只 能 让 其 他 人 获得 他 的 敏感 数据 的 一 个 具体 函数 值 而 没有 获得 其 他 任 
何 信息 ;上 述 4 种 技术 都 可 作为 解决 外 包 计算 的 主要 技术 和 工具 ,但 外 包 计 算 技术 也 有 其 自 
身 的 内 涵 , 外 包 计 算 技 术 可 使 计算 资源 受 限 的 用 户 端 将 计算 复杂 性 较 高 的 计算 外 包 给 远 端 
的 半 可 信 或 恶意 服务 器 来 完成 。 这 些 技术 也 可 以 组 合 使 用 ,例如 ,将 同 态 加 密 技术 和 可 验证 
计算 技术 组 合 ,可 用 于 解决 输入 和 输出 的 机 密 性 以 及 计算 的 完整 性 问题 。 

关键 词 : 同 态 加 密 ;类 同 态 加 密 ; 自 举 加 密 ; 全 同 态 加 密 ; 可 验证 计算 ;概率 检测 证 明 ; 零 
知识 证 明 ;论证 系统 ;交互 证 明 ; 安 全 多 方 计算 ;功能 函数 ;健忘 传输 ; 半 诚 实 模 型 ;恶意 模型 ; 
电路 赋值 ;函数 (功能 ) 加 密 ; 语 义 安全 ;模拟 安全 ;外 包 计 算 ;秘密 共享 。 


4.1 同 态 加 密 技术 


同 态 加 密 (Homomorphic Encryption. HE) 的 思想 最 早 是 由 Rivest 等 人 于 1978 年 提出 
fi^? , 亦 称 隐 私 同 态 (privacy homomorphism)。 其 基本 思想 是 : 在 不 使 用 私 钥 解 密 的 前 提 
下 ,能 和 否 对 密 文 数据 进行 任意 的 计算 , 且 计 算 结果 的 解密 值 等 于 对 应 的 明文 计算 的 结果 。 形 
式 化 地 讲 , 非 对 称 性 场景 下 的 同 态 加 密 问 题 可 以 定义 为 : 假定 一 组 消息 (mm ema ,zz E 
某 个 公开 加 密 密 钥 PK 下 的 密 文 为 (ci ,cs，… ,ci) ,给 定 任意 一 个 函数 f ,在 不 知道 消息 On s 
my ott ,m4) 以 及 私 钥 解 密 密 钥 SK 的 前 提 下 ,可 否 计 算出 Fon «ms sm) 在 PK 作用 下 的 
密 文 ,而 不 泄露 关于 (za «ma «t m VAR fn ms st ,mi) 的 任何 信息 ? 同 态 加 密 技术 的 
发 展 从 单 同 态 加 密 到 类 同 态 加 密 (Somewhat Homomorphic Encryption,SWHE), 青 到 全 同 
态 加 密 (Fully Homomorphic Encryption. FHE) ,经 历 了 30 多 年 的 历程 ,最 终于 2009 年 由 
时 为 斯 坦 福 大 学 计算 机 科学 系 博 士 生 的 Gentry 基于 理想 格 构造 出 第 一 个 FHE 方案 ,解决 
了 这 一 重大 问题 。 这 一 问题 一 直 被 密码 学 界 视 作 一 个 * 海 市 厦 楼 ” 般 的 问题 ,一 些 密码 学 家 
其 至 誉 之 为 “密码 学 圣杯 ”。“ 海 市 压 楼 ”以 及 “密码 学 圣杯 ”, 足 以 说 明 这 个 问题 的 困难 性 以 
及 此 前 整个 密码 学 界 对 解决 这 个 问题 的 不 乐观 态度 ! 在 基督 教 中 ,圣杯 一 直 被 视 作 “永远 无 
法 找 回 ?的 宗教 象征 。 

同 态 性 质 本 来 被 视 为 一 种 安全 性 缺陷 ,例如 ,RSA 方案 关于 乘法 的 同 态 性 质 可 用 来 伪 
造 数字 签名 ,但 这 种 性 质 能 够 提供 无 信托 计算 .电子 投票 .保密 信息 检索 等 服务 。 
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自从 同 态 加 密 技术 诞生 以 来 ,许多 密码 学 研究 者 开始 致力 于 同 态 加 密 方案 的 研究 ,并 提 
出 了 大 量 的 支持 一 定 同 态 能 力 的 加 密 方 案 。 支 持 任意 次 乘法 同 态 操作 的 加 密 方案 主要 有 
RSA 加 密 方案 中 和 ElGamal 加 密 方案 5 ,支持 任意 次 加 法 同 态 操作 的 加 密 方案 主要 有 GM 
加 密 方案 中 .Benaloh Ji 8$ 7; RO") (文献 [6] 中 的 方案 是 对 文献 L[5] 中 的 方案 的 修正 ) OU 加 
密 方 案 NS 加 密 方案 中 、Paillier 加 密 方 案外 DJ 加 密 方案 "9 ,支持 任意 次 加 法 同 态 操作 
和 一 次 乘法 同 态 操作 的 加 密 方案 主要 有 BGN 方案 00 。 此 外 ,Fellows 等 人 于 2006 年 提出 
的 PC 加 密 方案 可 支持 任意 电路 ,但 误差 随 密 文 规模 呈 指数 级 增长 "*';Sanders 等 使 用 隐 
私 电路 (circuit-private) 加 法 同 态 加 密 构 造 的 隐私 电路 SY Y 加 密 方案 可 处 理 NC, 电 
jig 0517 ,Ishai 等 人 使 用 分 支 程序 (branching programs) 同 态 处 理 NC, 电路 059 。 

Gentry 于 2009 年 基于 理想 格 构造 的 第 一 个 FHE 方案 发 表 在 ACM STOC2009 国际 会 
Wb] ,国际 ACM 协会 在 其 旗舰 刊物 Communications of ACM 2010 年 第 3 期 以 (一 睹 
密码 学 圣杯 芳 容 ) 为 题 并 以 “重大 研究 进展 ”的 形式 对 这 一 成 果 进 行 了 专题 报道 。Gentry HJ 
造 全 同 态 加 密 方案 的 基本 思路 是 : 首先 ,构造 一 个 类 同 态 加 密 (SWHE) 方 案 。SWHE 方案 
不 能 做 到 全 同 态 ,只 是 一 个 * 有 点 同 态 ” 的 加 密 方 案 ,只 能 对 加 密 数 据 进行 低 次 多 项 式 计算 ， 
也 就 是 说 只 能 同 态 计 算 “ 浅 的 电路 ”; 其 次 ,给 出 一 种 将 SWHE 方案 修改 为 自 举 
(bootstrappble) 同 态 加 密 方案 的 方法 ;最 后 ,通过 递归 式 自 嵌 入 ,任何 一 个 自 举 同 态 加 密 方 
案 都 可 以 转化 为 一 个 全 同 态 加 密 方案 。Gentry 方案 的 安全 性 建立 在 理想 格 上 的 有 界 距离 
编码 问题 CBDDP) 和 稀疏 子 集 和 问题 (SSSP) 的 困难 性 假设 上 ,BDDP 假设 用 于 保证 类 同 态 
加 密 方案 的 选择 明文 安全 性 CCPA) ,SSSP 假设 则 是 由 于 压缩 CSquashing) 解 密 电路 引入 的 
额外 假设 。 

目前 ,全 同 态 加 密 方案 主要 有 两 大 类 。 一 类 是 无 限 层 FHE 方案 ,也 称 无 界 自 举 型 FHE 
方案 ,这 是 真正 意义 上 的 FHE 方案 ,其 典型 代表 是 Gentry 方案 中。 由 于 这 类 方案 采用 
基于 同 态 解密 的 自 举 技术 ,所 以 无 限 层 FHE 方案 理论 上 可 以 进行 无 限 深度 的 同 态 操作 ,但 
付出 的 代价 是 同 态 操 作 的 计算 开销 、 密 钥 规 模 和 密 文 尺寸 都 比较 大 。 另 一 类 是 层次 型 FHE 
方案 ,其 典型 代表 是 BGV 方案 [2 。 这 类 方案 需要 预先 给 定 所 需 同 态 计算 的 深度 d, 以 便 可 
以 执行 深度 为 d 的 多 项 式 同 态 操 作 , 从 而 可 以 满足 绝 大 多 数 应 用 需求 。 总 的 来 讲 , 已 有 的 
FHE 方案 的 构造 仍 未 脱离 Gentry 当初 的 设计 框架 和 思想 ,很 多 方法 都 是 通过 使 用 基于 基 
础 模 运算 构建 类 同 态 加 密 方案 ,同时 使 用 Gentry 的 技术 ( 即 压缩 和 自 举 ) 将 其 转化 成 全 同 态 
加 密 方案 。 即 使 将 层次 型 FHE 内 套 成 无 限 型 FHE, 目 前 的 做 法 仍然 是 用 基于 同 态 解密 的 
自 举 技术 来 实现 。 

关于 FHE 的 研究 进展 可 归纳 为 以 下 几 个 方面 : 

CD 方案 设计 研究 ,如 基于 整数 的 设计 ‘9 .基于 编码 的 设计 C7 。 

(2) 效率 改进 和 算法 可 用 性 研究 ,如 基于 误差 学 习 (LWE) 和 ring-LWE 问题 的 全 同 态 
IMB RO) IEF Gentry 初始 方案 的 改进 39 。 

(3) 实现 和 应 用 研究 ,包括 各 种 FHE 方案 的 软 硬 件 实现 和 应 用 研究 ,最 具 代 表 性 的 是 
开源 代码 库 HEL bo”? 。 

同 态 加 密 技术 的 研究 也 受到 了 各 国政 府 的 高 度 关注 。 美 国 支持 的 “ 密 文 可 编程 计算 ” 
(Programming Computing on Encrypted Data,PROCEED) 项 目的 主要 目标 是 为 “ 密 文 未 
经 解密 即 可 进行 计算 ”而 研发 实用 化 的 方法 以 及 为 达到 此 目标 所 需要 的 新 的 编程 计算 语 
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言 ,第 一 个 方向 就 是 关于 FHE 的 新 数学 基础 。 欧 盟 启 动 了 “ 同 态 加 密 应 用 与 技术 ” 
(Homomorphic Encryption Applications and Technology, HEAT) 项 目 。 

AK FHE 的 更 多 研究 进展 可 参阅 文献 [38-41]。 

本 节 主 要 介绍 全 同 态 加 密 的 基本 概念 和 基本 思想 ,主要 取材 于 文献 [22]。 


4.1.1 同 态 加 密 


同 态 加 密 方案 包括 同 态 对 称 加 密 方 案 和 同 态 公 钥 ( 也 称 非 对 称 ) 加 密 方案 两 大 类 ,大 部 
分 同 态 加 密 方案 都 是 同 态 公 钥 加 密 方 案 , 鉴 于 此 , 除 特 别 声明 外 ,本 节 所 讲 的 同 态 加 密 方案 
均 指 同 态 公 钥 加 密 方案 。 

这 里 只 考虑 关于 布尔 电路 (等 价 于 布尔 函数 ) 的 同 态 加 密 方案 ,布尔 电路 由 模 2 加 法 门 
和 模 2 乘法 门 组 成 ,只 考虑 比特 操作 也 就 意味 着 加 密 方案 的 明文 空间 为 {0,1}。 更 一 般 的 情 
况 可 参阅 文献 [18] 。 

一 个 同 态 加 密 方案 e 通常 由 以 下 4 个 算法 组 成 : 

CD KeyGen 算法 。 输 入 安全 参数 A CA 通常 用 来 刻画 密 钥 的 比特 长 度 ) ,生成 公 钥 pk 和 
TA] sk, El (pk.sk)<-KeyGen(a), 

(2) Encrypt 算法 。 输 入 明文 mE (0,1) MAA pk, 得 到 密 文 c, 即 c<Encrypt(pk,m) 。 

(3) Decrypt 算法 。 输 入 私 钥 sk 和 密 文 c, 得 到 明文 m, 即 m DecryptCsk c) 。 

(4) Evaluate 算法 。 输 入 公 钥 pk.z 比特 输入 的 布尔 电路 C 和 一 组 密 文 cl co e E 
中 e; Encrypt (pk»m; ) ,i 二 1,2,…,t, 得 到 另 一 个 密 文 c* , 即 c* ^ EvaluateCpk. Cc) ,其 中 
€— (o 6,6). 

一 般 地 ,普通 公 钥 加 密 方案 是 由 上 述 前 3 个 算法 组 成 的 ,第 四 个 算法 是 同 态 公 钥 加 密 方 
案 所 特有 的 ,必要 条 件 是 其 输出 的 密 文 能 够 被 正确 地 解密 ,也 就 是 说 必须 满足 正确 性 。 

定义 4-1( 正 确 性 ) 一 个 方案 s=(KeyGen,Encrypt,Decrypt,Evaluate) 对 一 个 给 定 的 
t 比特 输入 的 布尔 电路 C 是 正确 的 ,如 果 对 任何 由 KeyGen(A) 输 出 的 密 钥 对 (pk,sk) ,以 及 
任何 明文 比特 mi ema st m, PME TIE XC 6 = Ce ico 62 c; *- Encrypt (pk.m;) Ci — 1. 
2,0 ,都 有 Decrypt(sk, Evaluate(pk.C.e)) — Cmn, «m; mj). 

FEM 4-205] n — IF R e= (KeyGen. Encrypt. Decrypt. Evaluate) Xf — 35 ffi /K 
电路 是 同 态 的 ,如 果 对 所 有 的 布尔 电路 CE v.e 都 是 正确 的 。 

定义 4-3( 全 同 态 加 密 ) 一 个 方案 e 二 (KeyGen,Encrypt, Decrypt. Evaluate) 是 全 同 态 
的 ,如 果 对 所 有 的 布尔 电路 ,e 都 是 正确 的 。 

同 态 加 密 方案 的 语义 安全 性 无 须 考 虑 Evaluate 算法 (因为 Evaluate 是 一 个 没有 秘密 的 
公开 算法 ) ,可 按照 文献 [4] 中 的 方法 定义 。 这 里 在 介绍 语义 安全 性 定义 之 前 先 介绍 可 忽略 
函数 的 定义 。 

定义 4-4( 可 忽略 函数 ) 设 1(n):N>R,N 是 自然 数 集 ,R 是 实数 集 , 称 函数 y(n) 是 可 
忽略 的 ,如 果 对 任意 多 项 式 pC ) ,存在 No ON. EMA IY n> No BBA pr) <1/p(n) 

语义 安全 性 是 相对 于 被 动 敌 手 ( 也 称 监听 敌手 ) 而 言 的 ,这 种 敌手 只 是 被 动 地 获取 密 文 
而 非 主动 进行 攻击 。 语 义 安全 性 是 指 敌 手 无 法 区 分 一 个 密 文 是 两 个 确定 明文 中 的 哪 一 个 的 
加 密 , 即 使 这 两 个 明文 是 敌手 自己 选择 的 也 是 如 此 。 对 于 公 钥 加 密 方案 而 言 , 这 正 是 选择 明 
文 攻击 下 的 不 可 区 分 安全 性 ,又 称 多 项 式 安全 。 一 个 方案 e= (KeyGen, Encrypt, Decrypt, 
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Evaluate) 的 语义 安全 性 可 通过 一 个 游戏 (也 称 实验 ) 来 定义 ,将 这 个 游戏 记 为 Gamea,。 (A), 
其 中 A 为 敌手 (可 视 作 一 个 概率 多 项 式 时 间 (PPT) 算 法 ) ,4 为 安全 参数 。 

游戏 4-1 Game, COR UG ERE RT. 

CD. WRAZ (pk. slo --KeyGen (A) ,将 pk 发 送 给 敌手 A. 

(2) 敌手 A 得 到 pk ,并 产生 一 对 等 长 的 消息 mo mi. 

(3) 挑战 者 选择 OE (0.1) ,计算 c" —EncryptC pk. mj) ,并 将 c ”发送 给 敌手 A。 

(4) 敌手 A 根据 X* 和 c* 输出 一 个 比特 多 € (0.1) ,可 理解 为 5 一 A(X,c* )。 

(5) 如 果 忆 一 和, 则 游戏 成 功 并 输出 1, 否 则 游戏 失败 并 输出 0。 

从 上 述 游戏 的 执行 过 程 中 可 以 看 出 ,敌手 A 可 以 不 顾 密 文 而 均匀 随机 地 输出 一 个 比特 
5' ,成功 的 概率 为 1/2。 一 般 地 ,把 一 个 敌手 A 成 功 的 概率 超过 1/2 的 量 称 为 其 成 功 的 优 
Hig JJ Adva, (A) — Pr [Game4, (A) —1]— 1/2. 

定义 4-5( 语 义 安全 性 ) ”一 个 方案 e— (KeyGen, Encrypt. Decrypt. Evaluate) J& if X. 
全 的 ,如 果 任何 PPT 敌手 A 在 游戏 4-1 中 成 功 的 优势 都 是 可 忽略 的 , 即 对 任何 PPT 敌手 
A, 都 存在 一 个 可 忽略 函数 HOO ,使 得 Adva.. OO Sp) 。 

显然 ,根据 定义 4-3, 有 两 种 平凡 的 方法 可 将 任何 公 钥 加 密 方案 转化 为 全 同 态 加 密 方 
案 。 一 种 方法 是 简单 地 将 Evaluate 算法 取 为 在 C 的 后 面 级 联 密 文 组 c, 即 Evaluate(pk,C， 
c) 一 (Ce); 另 一 种 方法 是 将 Evaluate 算法 取 为 首先 用 Decrypt 解密 所 有 的 密 文 c, 然 后 将 
所 对 应 的 明文 作为 C 的 输入 计算 其 值 , 即 Evaluate(pk. C.c) =C(Decrypt (sk, c, ) ,Decrypt 
(sk,cz ) ,… ,Decrypt(sk,c))。 隐 私 电路 和 紧凑 性 (compactness) 可 排除 全 同 态 加 密 方案 的 
这 两 种 平凡 解决 方法 。 

粗略 地 讲 ,隐私 电路 是 指 ,除了 电路 的 输出 值 之 外 ,由 Evaluate 产生 的 密 文 没有 泄露 关 
于 电路 的 任何 信息 ,即使 知道 解密 密 钥 的 人 也 是 如 此 。 具 有 隐私 电路 的 全 同 态 加 密 方案 可 
使 用 混淆 电路 (garbled circuits) 和 一 个 双流 (two-flow) 健 忘 传输 协议 来 实现 ,其 构造 类 似 于 
上 述 的 平凡 解决 方法 一 ,只 是 用 一 个 混淆 电路 代替 了 明文 电路 。 因 此 ,构造 全 同 态 加 密 方 案 
的 真正 挑战 来 自 紧凑 性 。 紧 凑 性 是 指 由 Evaluate(pk,C,c) 产 生 的 密 文 的 尺寸 (也 称 规模 ) 
不 依赖 于 电路 C 的 尺寸 ,看 起 来 像 普通 密 文 一 样 。 

定义 4-6( 紧 凑 性 ) ”一 个 方案 e 二 (KeyGen,Encrypt, Decrypt, Evaluate) 是 紧 竣 的 ,如 
果 存 在 一 个 固定 的 多 项 式 界 bA) ,使 得 对 任何 由 KeyGen(4) 输 出 的 密 钥 对 (pk,sk) ,任何 电 
路 C 以 及 任何 用 pk 产生 的 密 文 序列 e— Cei c2 02 485 XC Evaluate(pk,C,c) 的 尺寸 不 超 
ut OA) Hee. BD SC Evaluate(pk,C,c) 的 尺寸 独立 于 C 的 尺寸 。 


4.1.2 自 举 加 密 


为 了 将 一 个 类 同 态 加 密 方案 转化 为 一 个 全 同 态 加 密 方案 ,Gentry 提出 了 两 种 重要 的 技 
RE , 即 自 举 技术 和 压缩 解密 电路 (squashing the decryption circuit) 技 术 。 自 举 技 术 主 要 
用 来 降低 噪声 。 压 缩 解密 电路 技术 主要 用 来 压缩 类 同 态 加 密 方案 的 解密 电路 ,使 得 一 部 分 
解密 任务 由 加 密 者 预计 算 ,减轻 解密 者 的 计算 负担 ,从 而 可 实现 同 态 计 算 过 程 中 对 自身 解密 
电路 的 调用 。 

降低 噪声 的 一 个 直观 的 方法 是 对 密 文 解密 , 密 文 解密 后 噪声 就 没有 了 。 但 是 要 解密 就 
必须 知道 私 钥 , 如 果 计 算 服 务 提供 商 知道 了 私 钥 , 它 也 就 知道 了 用 户 的 输入 和 中 间 计 算 结 
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果 , 也 就 没有 隐私 可 言 了 。 从 本 质 上 来 讲 ,Gentry 解决 噪声 问题 的 基本 方法 是 使 用 基于 自 
举 同 态 加 密 方案 构造 的 重 加 密 技术 。 

为 了 定义 自 举 同 态 加 密 方 案 , 引 进 了 增强 型 解密 电路 (augmented decryption circuits) 
的 概念 ,这 个 概念 也 充分 体现 了 重 加 密 的 理念 。 

定义 4-7 (增强 型 解密 电路 ) X FAD R e= (KeyGen, Encrypt, Decrypt, 
Evaluate) ,其 中 Decrypt 可 由 一 个 仅 依 赖 于 安全 参数 的 电路 来 实现 (这 个 条 件 意味 着 对 于 
一 个 固定 的 安全 参数 , 私 钥 的 尺寸 总 是 一 样 的 ,而 且 能 被 解密 的 所 有 密 文 有 同样 的 尺寸 ) 。 
对 于 给 定 的 安全 参数 ,对 应 的 增强 型 解密 电路 由 两 个 电路 组 成 ,这 两 个 电路 的 输入 参数 都 
为 一 个 私 钥 和 两 个 密 文 ,其 中 一 个 电路 将 两 个 密 文 分 别 解密 后 对 恢复 出 的 两 个 明文 进行 模 
2 加 操作 ,而 另 一 个 电路 则 将 两 个 密 文 分 别 解密 后 对 恢复 出 的 两 个 明文 进行 模 2 乘 操作 。 
记 所 有 增强 型 解密 电路 的 集合 为 D. (4)。 

定义 4-8( 自 举 加 密 ) ”对 于 同 态 加 密 方 案 e= (KeyGen. Encrypt. Decrypt: Evaluate), 
对 于 每 个 安全 参数 4, 记 所 有 使 得 e 是 正确 的 电路 的 集合 为 C.(4)。 称 e 是 自 举 的 ,如 果 对 于 
每 个 安全 参数 4, 都 有 DOO CC, RE. 

通俗 地 讲 , 自 举 同 态 加 密 方 案 具有 能 够 处 理 自身 解密 函数 的 自 引 用 特性 。 自 举 性 要 求 
一 个 同 态 加 密 方案 e 的 Decrypt 也 是 e 可 同 态 计算 的 函数 。 

任何 一 个 自 举 同 态 加 密 方案 都 可 以 转化 为 一 个 紧凑 的 ,对 所 有 指定 深度 的 电路 都 是 同 
态 的 加 密 方 案 ,这 可 由 定理 4-1 保证 。 

定理 4-1"” 存在 一 个 有 效 的 .明确 的 转化 方式 可 将 任何 给 定 的 自 举 同 态 加 密 方案 e 
和 参数 d 二 d(4) 转 化 为 满足 下 列 条 件 的 加 密 方案 se” : 

(1) eH 是 紧凑 的 ,特别 地 ,e” 中 的 Decrypt 电路 与 a 中 的 Decrypt 电路 相同 。 

D) es" 关于 所 有 深度 不 超过 d 的 电路 是 同 态 的 。 

再 者 ,如 果 s 是 语义 安全 的 ,se2 也 是 语义 安全 的 。 特 别 地 ,对 e 中 的 任何 具有 优势 《的 
攻击 可 以 转化 为 对 e 的 具有 优势 /ld 的 攻击 ,两 个 攻击 具有 类 似 的 复杂 度 ,! 是 e 中 的 私 钥 
KE. 

下 面 介绍 Gentry 提出 的 将 任何 一 个 自 举 同 态 加 密 方案 转化 为 一 个 对 任意 深度 的 电路 
都 是 同 态 的 加 密 方案 的 方法 , 称 为 Gentry 转化 方法 。 

it e= (KeyGen, Encrypt. Decrypt. Evaluate) 是 自 举 的 ,对 任何 整数 4251. e? = 
(KeyGen, ,Encryptew ,Decryptew , Evaluate;o ) 表 示 对 深度 不 超过 d 的 电路 都 是 同 态 的 
MERR. M e Fas e? 的 过 程 如 下 : 

A) KeyGen (4,d): 输入 安全 参数 4 和 正 整 数 d SEC pk; sk) - KeyGenQ) ,i 二 0,1， 
2,…,d。 使 用 公 钥 pk;_1 加 密 sk; 的 每 个 比特 sk; 得 到 密 文 Encrypt( pkii «sk? ,将 所 有 的 密 
文 合成 一 个 密 文 向 量 sk; ,i 二 1,2,…,d。 输 出 公 钥 pk 一 ({pk;) 生 。, (sk) , 私 钥 sk 一 
skos X} O<d ,用 ee 表示 使 用 pk? <—C{ pk; Yo» (sk; 154 Al sk? sks 的 方案 。 

(2) Encrpytew (pk? m): 输入 公 钥 pk? 和 明文 m € (0,1). Si HH Æ X c< Encrypt 
(pk m). 

(3) Decrypt. (sk ,c) 输入 私 钥 sk? MEX c( 这 是 一 个 使 用 公 钥 pk 加 密 的 密 
文 ) ,输出 明文 m=<-Decrypt(sko +c). 
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(4) Evaluate (pk® ,Ci,c): 输入 公 钥 pk? 、 深 度 至 多 为 6 的 电路 C 和 一 组 密 文 cy 
(这 组 密 文 是 使 用 pks 加 密 的 ) 。 如 果 8 一 0, 输 出 co 并 终止 ;否则 ,执行 下 列 操作 : 

(4.1) CC ci 7 Augment;? (pk? ,C; 6) o 

(4. 2) 置 (Cs_1 509-1) - Reducee-» (pk@- ,Ci s. 

(4. 3) i& fT Evaluate,?-» (pk? ,Ci , m 

在 Evaluate,» 的 构造 过 程 中 涉及 两 个 算法 , 即 Augment. 和 Reduce 。 这 里 简单 介 
绍 一 下 其 基本 构造 思路 , 感 兴趣 的 读者 可 参阅 文献 [19,20]。 

(1) Augmentew (pk® ,Ci,cs): 输入 公 钥 pk? RE 8 2g 0 的 电路 Cs 和 一 组 密 文 cs 
(这 组 密 文 是 使 用 pks 加 密 的 ) 。 使 用 es 的 解密 电路 D.( 即 解密 函数 对 应 的 电路 ,由 方案 的 自 
举 性 可 知 ,这 个 电路 是 同 态 可 计算 的 ) 增 强 C;, 把 这 个 增强 后 的 电路 记 为 Cia. cy ERE F 
列 方式 形成 的 一 组 密 文 

(1.1) 对 每 个 输入 密 文 cEcs ,使 用 方案 se RA pk OP Jes c 的 每 个 比特 cj 得 到 密 
X c; Encrypto-» (pk? ,cj) ,将 所 有 的 密 文 合成 一 个 密 文 向 量 < 。 

(1.2) cia (sk) Ute ic€ a). 

输出 (s rci Augment» (pk™ Csa 


(2) Reduces (pk ,CF «c£; 输入 公 钥 pk? 、 一 组 密 文 cf (这 组 密 文 是 使 用 pks 加 密 
的 , 即 Encrypt 的 输出 ) 和 电路 C? € D.(6 十 1) ,D.(6 十 1) 表 示 由 D, 增强 的 深度 均 为 6 十 1 
的 电路 的 集合 ,用 D. 增强 就 是 复制 D, 使 其 适合 6 十 1 深度 电路 的 输入 。 取 C# 的 前 6 层 子 
电路 作为 Cs ,把 C, 的 输入 密 文 设置 为 7, 输出 (C3,63) Reduce, (pk? ,CF «cj. 

这 里 将 Gentry 转化 方法 的 核心 思想 进行 提炼 和 总 结 。 

如 果 一 个 同 态 加 密 方案 e 是 自 举 的 , 则 可 根据 以 下 过 程 构造 重 加 密 5] ， 

COD d c, 是 使 用 公 钥 pki 加 密 一 个 比特 明文 m 所 得 的 密 文 , 即 c; Encrypt (pki m). 
m€10.1j, ffi FH S] pk, 加 密 ski 的 每 个 比特 skv 得 到 密 文 Encrypt (pk; «ski; ) ,将 所 有 的 
密 文 合成 一 个 密 文 向 量 ski , 仍 可 记 为 ski — Encrypt (pk: «ski ) 。 

(2) 构造 一 个 算法 RecryptCpk; ,Decrypt,ski ,ci)。 首 先 使 用 pks 加 密 c 的 每 个 比特 
cy 18 Bl — 4 XC ts ie = Encrypt (pk: «ci ); 其 次 输出 c< Evaluate pk; » Decrypt, 
ski c). 

Recrypt 也 被 称 为 密 文 更 新 操作 ,用 于 刷新 密 文 。 当 se 具有 自 举 性 时 ,Decrypt 是 s 可 同 
态 计算 的 函数 ,可 同 态 地 进行 解密 ,因此 ,c 就 是 使 用 pks 加 密 m= Decrypt sk; +c, ) 的 密 文 。 

事实 上 ,Recrypt 操作 连续 对 消息 m 进行 了 两 次 加 密 , 第 一 次 使 用 公 钥 pk 加 密 ( 称 为 
内 层 加 密 ) ,第 二 次 则 使 用 公 钥 pk 加密 ( 称 为 外 层 加 密 ) ,而 后 采用 Decrypt 对 第 一 次 加 密 
操作 实施 解密 (保留 第 二 次 加 密 的 效果 )。 与 常规 多 重 加 密 方案 不 一 样 的 是 ,常规 多 重 加 密 
方案 一 般 须 遵循 “后 加 密 的 先 解 密 , 先 加 密 的 后 解密 ”的 原则 。Recrypt 的 一 个 巧妙 之 处 就 
是 它 突 破 了 这 个 原则 ,具有 直接 对 内 层 加 密实 施 解密 的 能 力 , 把 噪声 控制 在 一 定 范围 之 内 ， 
而 且 这 样 处 理 后 噪声 也 不 会 放大 。 

如 果 要 计算 一 个 复杂 的 电路 C, 需 要 一 系列 的 公私 钥 对 。 当 使 用 的 私 钥 为 sk 时 ,公开 
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的 密 钥 由 两 部 分 组 成 : 一 个 是 公 钥 序列 (pki ,pks ,… pkoi); AAE 25 Jes 00 fet BE 
Gk, «sk; sk JEP sk; = Encrypt (pii ,sk;) ,i 一 1,2,…,1。 所 需要 的 公私 钥 对 数量 与 
电路 的 深度 呈 线 性 关系 。 使 用 公 钥 pk 加 密 私 钥 sk 得 到 私 钥 的 密 文 sk, 如 果 sk 汇 露 不 影响 
密 钥 本 身 的 安全 性 , 则 称 为 循环 安全 性 (circular security). WRS AmE N REMA E 
全 的 ,就 不 需要 那么 多 公私 钥 对 ,所 有 电路 层 共 用 一 个 公 钥 与 加 密 的 私 钥 就 够 了 。 关 于 循环 
安全 性 目前 已 有 一 些 结论 ,但 在 实际 应 用 中 只 是 假设 这 样 做 不 会 有 安全 问题 。 


4.1.3 类 同 态 加 密 方案 


从 4.1.2 节 的 讨论 可 知 , 如 果 有 一 个 类 同 态 加 密 方案 s, 它 既是 自 举 的 又 是 循环 安全 
的 ,那么 构造 全 同 态 加 密 方案 就 容易 了 。DGHY 全 同 态 加 密 方 案外 是 基于 整数 环 上 的 平 
凡 运 算 构 造 的 ,其 最 大 特色 是 简洁 。DGHYV 方案 的 基本 构造 思路 是 : 首先 ,基于 近似 GCD 
问题 (Approximate GCD Problem,AGCDP) 的 假设 构造 一 个 类 同 态 对 称 加 密 方案 s ;其 次 ， 
通过 实施 一 个 简单 变换 将 se 转化 为 一 个 类 同 态 公 钥 加 密 方案 e ;最 后 ,使 用 压缩 解密 电路 
技术 将 e; 转化 为 一 个 自 举 同 态 加 密 方案 ,进而 可 用 Gentry 转化 方法 构造 出 一 个 全 同 态 加 
密 方案 。e 的 安全 性 基于 近似 GCD 问题 和 稀疏 子 集 和 问题 的 困难 性 假设 。 本 节 介 绍 两 个 
类 同 态 加 密 方案 ,一 个 是 对 称 的 , 另 一 个 是 非 对称 的 。 


l. 参数 选择 
在 密码 体制 的 构造 中 ,参数 的 选择 也 是 非常 重要 的 一 个 环节 ,要 综合 考虑 安全 性 和 效率 
等 各 方面 因素 。 


下 面 的 4 个 参数 的 尺寸 都 是 安全 参数 入 的 多 项 式 : 

CD yY 是 公 钥 中 整数 的 比特 长 度 。 

(2) p 是 私 钥 的 比特 长 度 。 

(3) 是 噪声 的 比特 长 度 ,噪声 就 是 公 钥 和 私 钥 的 最 近 倍 数 之 间 的 距离 。 

OD rz 是 公 钥 中 整数 的 数目 。 

上 述 参数 选择 必须 满足 以 下 限制 : 

A) o 一 w(logA) ,为 了 保护 对 噪声 的 强力 攻击 ( 即 穷 举 攻击 )。 

(2) wp* OAlog? A) ,为 了 支持 足够 深 的 电路 的 同 态 性 以 计算 压缩 解密 电路 。 

(3) y—oGf loga) ,为 了 对 抗 对 基础 近似 GCD 问题 的 各 种 基于 格 的 攻击 。 

(4) y+ elogio ,为 了 在 近似 GCD 归 约 中 使 用 剩余 Hash 引 理 。 

HP ws AM OCs ) 是 多 项 式 。 

通常 也 使 用 第 二 个 噪声 参数 o 二 op 十 wo(logX)。 一 个 合适 的 参数 集 选 择 是 : po 一 1,o' — 
24,7 一 OG2) ,7 一 0(05) 和 rr 一 Y 十 M。 这 样 的 参数 选择 可 导致 一 个 方案 具有 复杂 度 OO"), 
其 中 O(。) 是 多 项 式 。 

对 一 个 具体 的 7 比特 的 奇 正 整数 户 ,可 按照 以 下 方式 定义 一 个 在 y 比特 的 整数 上 的 
分 布 : 

Dy, CD) = GRE qZ [0.27 /p) «rZ (Y C— 2020): 输出 x= pqt 2r} 


2. 类 同 态 对 称 加 密 方案 
使 用 上 述 参数 ,基于 整数 上 的 平凡 运算 ,可 以 构造 一 个 同 态 对 称 加 密 方案 e = 
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(KeyGen,Encrypt,Decrypt,Evaluate) ,其 构造 过 程 如 下 : 

A) KeyGen): 输入 安全 参数 ,随机 生成 一 个 7 比特 的 奇 正 整 数 p( 即 p€ (2Z +1) 
站 [2 ,27)) 作 为 密 钥 ko 

(2) Encrypt(k,m): 输入 密 钥 k= p FIBI XC m € (0.1) ,随机 选择 一 个 Y—17 比特 的 正 整 
Bq CH q€ Z ML0.27/p)) M—* o 比特 的 整数 ~( 即 ~EZ 站 (一 2?,2?)), 显 然 2r 十 m 远 小 于 
pb HE MBE XM c—kq-- 2r m, 

(3) Decrypt(k,c): fii A 855] k= p AH C c. TK EL BH XC m= mod k) mod 2, 其 中 
c mod kEZ (1C— p/2.p/2), 

(4) Evaluate(k,C,c «c2 7.02 : 给 定 t 比特 输入 的 布尔 电路 C 和 + 个 密 文 c;, 将 密 文 
c; 作为 C 的 输入 ,此 时 将 C. 的 加 法 门 和 乘法 门 视 作 整数 加 法 和 乘法 进行 运算 并 返回 计算 出 
的 整数 。 

由 方案 & 的 构造 过 程 可 知 ,其 输出 的 密 文 c Wk = p 的 近乎 倍数 。 一 般 将 c mod k 称 为 
与 密 文 c 相关 联 的 噪声 。 实 际 上 ,噪声 刻画 的 是 密 文 与 最 接近 的 & 的 倍数 之 间 的 距离 。 解 
密 过 程 中 的 噪声 为 2r 十 m, 它 与 明文 m 具有 相同 的 奇偶 性 ,因此 可 以 正确 解密 。 

现在 说 明 方案 & 满足 正确 性 要 求 。 由 平凡 整数 运算 的 定义 易 知 ,方案 ei 支持 加 法 \ 减 
法 和 乘法 等 同 态 操作 。 这 里 仅 以 乘法 同 态 操作 为 例 进 行 验证 。 设 co * cc; 的 噪声 为 
r= 二 27; 十 misi 二 1,2。 则 对 于 某 个 整数 g ,有 c=rirs tkg 。 只 要 了 噪声 足够 小 , 即 满 足 条 件 
mr 一 RAR/2, 则 有 <c mod &—rir;. Militi (c mod k) mod 2=r; * r, mod 2=m, * mz. 

3. 类 同 态 公 钥 加 密 方案 

下 面 将 上 述 构造 的 同 态 对 称 加 密 方 案 ev 转化 为 一 个 同 态 公 钥 加 密 方案 e= (KeyGen, 
Encrypt, Decrypt, Evaluate) ,其 构造 过 程 如 下 : 

A) KeyGena): 输入 安全 参数 4, 随 机 生成 一 个 比特 的 奇 正 整数 p( 即 p€ (2Z 十 DD 站 
[2771 ,27)) 作 为 私 钥 sk, 利 用 同 态 对 称 加 密 方案 se 对 密 文 0 的 系列 加 密 是 公 钥 , 即 随机 选择 
7 一 7 比特 的 正 整 数 g;( 即 g;€2Z 门 [0,27?/p)) 和 op 比特 的 整数 7;( 即 rE€2 门 (一 2 ,2?)),i== 
0,1,…,T, 生 成 xz; 二 pqi 十 2ri( 实 际 上 ,可 以 直接 从 集合 Dro OP BENLE FE x; ,这 里 也 看 到 
了 集合 D;,,,(p) 的 真正 来 源 )。 通 过 调 序 可 使 得 ze 最 大 (这 样 选择 的 目的 是 将 密 文 长 度 控 制 
EE IA). AE pk <r sr eem. 

(2) Encrypt(pk,m): 输入 公 钥 pk 和 明文 mE (0.1) ,随机 选择 一 个 子 集 SSE{1,2,…， 
人 和 一 个 p 比特 的 整数 r( 即 rEZ 站 (一 2 ,2 )) ,生成 密 文 c = (mw 十 27 十 2xi)mod aro. 

iES 


其 中 cE2Z 站 (一 zo/2,zo/2) 。 

(3) DecryptCsk.c) : 输入 私 钥 sk— p AIFF c. PEZ BH X: m — (c mod sk) mod 2。 

(4) EvaluateCpk.C.c; «c; 7.0) : E t 比特 输入 的 布尔 电路 C 和 + 个 密 文 c, ,将 密 文 
c; 作为 C 的 输入 ,此 时 将 C 的 加 法 门 和 乘法 门 视 作 整数 加 法 和 乘法 进行 运算 并 返回 计算 出 
的 整数 。 

因为 c mod p—c— p * [c/b] [c/p] RRS c/p 最 近 的 整数 ),p 是 奇数 ,所 以 可 使 用 以 
下 公式 解密 : 

m=(c—p* [c/p]) mod 2=(c—[c/p]) mod 2— (c mod 22GX([c/ p ]mod 2) 
由 于 c= (m+ 2r 之 = )mod xzo* 所 以 存在 s E44 m + 2r + 2s = szo 十 c, 结 合 加 
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密 公 钥 的 构造 , 可 由 以 下 公式 说 明 e; 可 以 正确 解密 : 
c= md art Dz; sto = Pai + 2(r-+ Dri)tm— se 
iES iES iES 








一 »( Dia — sqo)+2(r+ Diri )+m 

现在 考虑 方案 e; 的 正确 性 。 在 构造 方案 e 的 Evaluate 算法 时 采取 的 方法 如 下 : 对 给 
定 的 布尔 电路 C ,把 它 一 般 化 到 整数 上 ,也 就 是 将 C 的 模 2 加 法 门 和 模 2 乘法 门 视 为 整数 加 
法 门 和 整数 乘法 门 。 类 似 于 文献 [19] ,可 以 定义 许可 电路 (permitted circuit) 。 许 可 电路 是 
指 ,对 任何 a 宇 1 和 任何 一 个 输入 集 ,每 个 输入 都 是 绝对 值 小 于 2707? 的 整数 ,一 般 化 电路 的 
输出 的 绝对 值 至 多 为 2%?。 设 Ce 表示 许可 电路 的 集合 , 易 知 ,方案 s 关于 Cu 是 正确 的 。 
因为 由 Encrypt 输出 的 “新 鲜 ? 密 文 的 噪声 至 多 为 2*? ,所 以 由 Evaluate 应 用 于 一 个 许可 电 
路 输出 的 密 文 的 噪声 至 多 为 2 二 p/8。 界 217? — p/2 就 能 满足 正确 解密 的 需求 ,但 事实 上 
在 4.1.4 节 关于 全 同 态 加 密 方案 的 构造 中 仍然 使 用 了 界 p/8. C, 的 定义 看 起 来 比较 抽象 。 
显然 ,对 大 扇形 加 法 门 来 说 ,增加 了 至 多 整数 的 上 倍 的 量 ; 然 而 仅 对 2- 扇 形 乘法 门 来 说 ,就 
增加 了 整数 的 平方 的 量 ( 即 它们 的 比特 长 度 的 两 倍 ) 。 可 见 ,影响 方案 es 的 正确 性 的 主要 并 
颈 是 电路 的 乘法 深度 或 由 电路 计算 的 多 变量 多 项 式 的 次 数 。 因 此 ,可 得 出 如 下 结论 。 

引 理 4-1 it C 是 一 个 上: 比特 输入 的 布尔 电路 ,C1 是 相关 的 整数 电路 (即将 C 的 布尔 门 
由 整数 运算 代替 后 所 得 的 电路 ) 。 设 f(z ,zs ,…,zi) 是 由 C+ 计 算 的 多 变量 多 项 式 ,其 次 数 
为 d。 如 果 | f| C27 t 21 FIRR f Gn sans zi) 的 代数 正规 型 表示 中 项 的 系数 的 
绝对 值 之 和 ), 则 CE C, 。 特 别 地 ,只 要 fr sas erm ni EF X ees 就 可 以 处 理 该 函数 。 

d 去 3 一 4 一 log fl 
p +2 

满足 上 式 的 多 项 式 称 为 许可 多 项 式 (permitted polynomial). JH P. 表示 许可 多 项 式 的 
集合 ,用 CCP, RRHH P, 的 电路 的 集合 ,上 述 讨论 隐 含 着 COP. 0C, 。 

4. 类 同 态 加 密 方案 的 安全 性 

上 面 构造 的 方案 e 和 ez 的 安全 性 都 与 近似 最 大 公 因 子 问题 (简称 近似 GCD 问题 ) 有 
关 。 近 似 GCD 问题 是 指 : 给 定 任意 一 个 整数 集合 {zo ,zi En ,其 中 每 个 x; 都 是 随机 选 
择 的 并 且 都 非常 接近 一 个 未 知 大 整数 p 的 倍数 ,确定 该 公共 近似 因子 p。 下 面 为 该 问题 的 
形式 化 定义 。 

定义 4-9( 近 似 GCD 问题 ) (0.9.7) -IEW GCD 问题 是 指 ,对 一 个 随机 选择 的 7 比特 奇 
正 整数 户 ,给 定 Dy,(p) 中 的 多 项 式 个 样本 , 求 出 po 

在 文献 [22] 中 使 用 了 集合 D; CD ,实际 上 近似 GCD 问题 在 这 两 个 集合 上 的 定义 是 等 
价 的。 其 中 D, Cp) = GE q--Z 站 [0,27?/p),r<Z (1 C7 26.20) HH a= patr). 

关于 方案 e ,只 要 假设 近似 GCD 问题 是 困难 的 ,参数 选择 得 适当 ,该 方案 就 是 安全 的 。 
甚至 有 人 认为 选择 ra gq 2" 方案 s 都 是 安全 的 。 

关于 方案 e ,可 将 其 安全 性 规约 到 近似 GCD 问题 的 困难 性 ,已 证 明 如 下 结论 。 

定理 4-207 对 固定 参数 (p,p ,7,7,7) 的 方案 es ,这 些 参数 都 是 安全 参数 1 的 多 项 式 。 
对 方案 e 的 任何 具有 优势 《的 攻击 A 都 可 以 转化 为 一 个 成 功率 至 少 为 6/2 的 解决 (o,7,7)- 
近似 GCD 问题 的 算法 B. B 的 运行 时 间 是 A 的 运行 时 间 、A 和 1/6 的 多 项 式 。 
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目前 已 有 一 些 关于 近似 GCD 问题 的 分 析 方 法 。 关 于 两 个 数 的 近似 GCD 问题 分 析 方 
法 有 余数 的 穷 举 分 析 、 连 分 数 分 析 和 Howgrave-Granham 的 近似 GCD 算法 等 。 关 于 多 个 
数 的 近似 GCD 问题 分 析 方 法 主要 是 基于 格 的 分 析 方 法 ,包括 基于 格 的 联 立 丢 番 图 近似 算 
ik. Nguyen-Stern 的 正 交 格 方法 和 Coppersmith 的 多 变量 多 项 式 扩展 方法 。 感 兴趣 的 读者 
可 参阅 文献 [22] 中 给 出 的 相关 文献 。 了 解 这 些 分 析 方法 和 近似 GCD 问题 相关 研究 进展 十 
分 重要 ,因为 这 是 选择 方案 的 参数 的 科学 依据 。 


4.1.4. 全 同 态 加 密 方 案 


在 全 同 态 加 密 方案 的 构造 过 程 中 ,人 们 常常 使 用 压缩 解密 电路 来 提高 解密 效率 ,这 种 技 
术 给 公 钥 增加 了 关于 私 钥 的 额外 信息 ,利用 这 个 额外 信息 对 原 密 文 进行 处 理 ,处 理 后 的 密 文 
与 原 密 文 相 比 可 被 更 有 效 地 解密 ,并 且 可 将 类 同 态 加 密 方案 转化 为 自 举 的 。 但 这 样 做 付出 
的 代价 是 密 文 较 大 ,也 引进 了 另 一 e a bd 
译 方案 没有 帮助 ) 。 本 节 基 于 类 同 态 公 钥 加 密 方案 。 ,采用 压缩 解密 电路 技术 ,构造 一 
举 同 态 加 密 方案 s, 从 而 利用 4. 1. 2 节 中 的 Gentry 方法 就 可 以 将 其 转化 为 一 SHARE 
方案 。 

1. 压缩 解密 电路 

设 <,b,@8 是 3 个 关于 的 函数 的 参数 ,这 里 的 参数 选择 为 ie YA/ p .0—A.0 — e * logi) 。 
为 构造 s, 需 要 向 e 的 公 钥 中 添加 一 个 新 的 < 比特 精度 ( 即 在 二 进 制 数 的 小 数 点 之 后 保留 
i 比特 ) 的 有 理 数 集 y— Ui eye yel s € [0.2) ,i 二 1,2,… ,9, 使 得 存在 一 个 尺寸 为 9 的 
Mihi FE SC(.2.-.0) WE > ~ 1/p(mod 2)。 同时 ,也 需要 将 e; 的 私 钥 替 换 为 子 集 

iES 

合 S 的 指标 向 量 。 

自 举 同 态 加 密 方案 © = (KeyGen. Encrypt. Decrypt. Evaluate) AY A fA fy i at FE F : 

A) KeyGen(a) : 像 方案 ex 中 那样 ,生成 sk* =p.pk* —Groszis m0. WE ee 
pj(L2*/pj] 表 示 离 2*/p 最 近 的 整数 ) ,随机 选择 汉 明 重量 为 9 的 9 长 向 量 s 二 (51 ,ss，… ,se)， 
并 设 S= {i:s; 二 1}) 。 随 机 选择 整数 wu:E€Z 门 [0,2"+1) ,i 二 1,2,…,0, 使 得 2u = = x,(mod 
275), Ht yi = u/2* y = {yis yss cn yo), Ask, BT y; 都 是 小 于 2 的 正 数 ， 而 且 
( 3i; )mod 2 = 1/ — A. | A, | 二 1/2。 输 出 私 角 ems IR pk—(k' ,y)。 

ies 

(2) Encrypt(pk.m): 输入 公 钥 pk MAX mE {10,1)。 首 先 , 像 方案 es 中 那样 ,生成 一 
个 密 文 c”, 即 随机 选择 一 个 子 集 SC (162.267) HIA of 比特 的 整数 ,生成 密 文 — 
(m+ 2r+ Dix: mod To。 然后 ,对 每 个 iE (1.2.7.0) E z;—[c* * y; ] mod 2。 对 每 个 

iES 
zi HARI n—[log? H3 比特 精度 (flogb Hea AF MEF logo 的 最 小 整数 ) 。 输 出 密 文 
c 一 (c”,z),z 一 (zlyzzwwy ze)。 
e 

(3) Decrypt(sk.c) : 输入 私 钥 sk IE XC c— (c^ ,=) , 恢复 明文 二 (c ES [X se] ) mod 2, 

(4) Evaluate(pk,C,clcz,…:co): 给 定 t 比特 输入 的 布尔 电路 C 和 t+ 个 密 文 ci ,将 密 文 
c; 作为 C 的 输入 ,此 时 将 C 的 加 法 门 和 乘法 门 视 为 整数 加 法 和 乘法 进行 运算 并 返回 计算 出 
的 整数 。 








1 
第 4 章 安全 处 理 技术 118 


关于 方案 e 的 正确 性 ,已 有 如 下 结论 。 
引 理 4-2 方案 e 关 于 C(P.) 是 正确 的 。 
证 明 : 在 方案 e 中 ,固定 由 安全 参数 4 产生 的 公 钥 和 私 钥 ,{y;)&1 是 公 钥 中 的 有 理 数 ， 
e 
{5 香 ;是 私 钥 比 特 。 由 y; 的 选择 可 知 , ( >)sy;) mod 2 = 1/p—A,. | A, | 1/2". 
i=1 
固定 一 个 许可 多 项 式 FCz,z，…'zD)EP.、 一 个 计算 f 的 算术 电路 C 以 及 作为 C 的 输 
入 的 1 个 密 文 {ci)f-1, 记 c* =Evaluate(pk* ,C,ci,cs，…,c)。 由 于 可 使 用 解密 公式 m= 
Ce" Le" /pJ) mod 2 解密 ,只 要 证 明 [e* /一 [之 sse;i] mod 2 即 可 。 由。 的 加 密 过 程 可 
知 ,zi 二 [c”。yi] mod 2,i€ {1,2,2,0}, EA zx; 只 保留 n= 二 [log0 |+3 比特 精度 ,所 以 
[c* * y;] mod 2=z;—A;,|4;|<1/160. Æ 





e 
[c /p- Mss] mod 2= [c /bp— 2s Ce .y] mod 2+ A) ] mod 2 


e e 
= [c /2 一 2s ([c* * y; ] mod D= 3 sA] mod 2 


= [c*/5—e* [iso] mod 2— 3554] mod 2 


9 


[c /p 7 € + G/p — 4) — X s4] mod 2 








e 
= [cA — 21s4;] mod 2 
A. u^ 1/16, 由 许可 多 项 式 的 定义 可 知 , 对 任何 a 三 1, 如 果 了 的 输入 的 


大 小 至 多 为 246*^ , 则 其 输出 的 大 小 至 多 为 2 ?。 特 别 地 , 当 f 的 输入 是 新 鲜 的 密 文 ,其 
大 小 至 多 为 2? 时 , 则 了 的 输出 密 文 c* 的 大 小 至 多 为 27 ”19 二 2。 这 是 利用 了 c* 是 
多 项 式 $f 是 整数 多 项 式 ) 关 于 输入 密 文 c; 计算 所 得 的 密 文 这 一 事实 。 因 此 |c* A, | 一 








e 
1/16。 这 样 就 证 明了 |c A, 一 > sA,| 一 1/8. 引 理 得 证 。 
另外 ,由 许可 多 项 式 的 定义 ,因为 | 是 由 一 个 许可 多 项 式 输出 的 合法 密 文 ,所 以 值 c* /p 
e 
在 一 个 整数 的 1/8 范围 内 。 因 此 ,也 证 明了 X se: 在 一 个 整数 的 1/4 范围 内 。 


2. 关于 方案 s 的 自 举 性 

关于 上 述 构造 的 方案 es' 已 有 如 下 结论 。 

定理 4-307 设 e 是 如 上 构造 的 方案 ,D, 是 增强 型 (压缩 ) 解 密 电路 的 集合 , 则 D.CC 
CC. 

换 句 话说 ,e 是 自 举 的 。 由 定理 4-1 可 知 , 能 够 获得 关于 任何 深度 电路 的 同 态 加 密 方 
R ,也 就 是 说 ,可 构造 出 全 同 态 加 密 方案 。 

3. 关于 方案 s 的 安全 性 

e flle; 之 间 的 安全 性 差别 在 于 e 的 公 钥 构造 中 添加 的 >, 它 引进 了 另 一 个 计算 假设 , 即 
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稀疏 子 集 和 问题 (Sparse Subset Sum Problem, SSSP) ,以 下 是 它 的 形式 化 定义 。 
定义 4-10( 稀 疏 子 集 和 问题 ) 给 定 m 个 n 比特 的 整数 ai sas ,…:aw 以 及 整数 B, 确 定 是 
否 存 在 某 个 子 集 SS {1,2,…,m) ,使 得 Sa; = B。 
i€S 
关于 稀 踊 子 集 和 问题 已 有 一 些 研 究 成 果 , 已 知 的 攻击 方法 可 通过 选择 足够 大 的 参数 来 
挫败 。 
由 上 述 讨 论 可 知 , 如 果 假 定 近似 GCD 问题 和 稀 玻 子 集 和 问题 是 困难 的 , 则 是 安全 的 。 





4.2 可 验证 计算 技术 


假设 现在 不 关心 数据 的 机 密 性 ,也 许 这 些 数 据 是 不 敏感 的 ,我 们 只 关心 计算 结果 的 正确 
性 (也 称 完整 性 )。 有 很 多 方法 可 以 实现 这 一 目标 (外, 较 常见 的 有 以 下 3 种 。 一 是 复制 
(replication) ,就 是 将 计算 外 包 给 一 些 不 同 的 服务 器 ,然后 取 最 多 的 共同 回答 作为 正确 的 计 
算 结果 ,这 是 最 直接 的 方法 。 这 种 方法 只 有 在 失败 的 服务 器 互 不 相关 的 情况 下 才能 正常 工 
作 。 如 果 服 务 器 中 的 大 多 数 由 同一 个 敌手 控制 或 它们 以 一 种 具体 的 方式 错误 地 运行 单一 的 
操作 系统 , 则 这 种 方法 不 能 正常 工作 。 二 是 审计 (Cauditing), 即 把 工作 外 包 后 ,自己 也 以 一 定 
的 概率 完成 一 些 工 作 , 如 果 结 果 与 服务 器 的 回答 不 一 致 ,就 停止 信任 该 服务 器 所 做 的 任何 工 
作 。 这 种 方法 只 有 在 相信 服务 器 的 计算 以 显著 的 概率 而 不 是 以 很 小 的 概率 失败 的 情况 下 才 
能 正常 工作 。 三 是 可 验证 计算 ,这 是 一 种 使 用 密码 学 工具 的 方法 ,可 确保 外 包 计 算 的 完整 
性 ,而 无 须 对 服务 器 失败 率 或 失败 的 相关 性 做 任何 假设 。 

定义 在 两 个 参与 方 环境 下 的 可 验证 计算 是 最 典型 的 情况 。 在 这 种 环境 下 ,有 一 个 计算 
上 弱 的 验证 者 (也 称 验 证 方 、 客 户 、 顾 客 、 外 包 者 、 委 托 方 .接收 者 等 ) 和 一 个 计算 上 强 的 但 不 
可 信 的 证 明 者 (也 称 证 明 方 .服务 器 .被 委托 方 、 发 送 者 等 ) ,验证 者 委托 证 明 者 完成 某 一 工 
作 。 给 定 一 个 输入 r 和 一 个 函数 了 ,证明 者 期 望 产生 一 个 输出 y 和 一 个 关于 y=z) 的 证 
明 p, 验 证 者 可 用 p 证 实 计算 的 正确 性 。 其 中 一 个 合理 性 条 件 是 ,验证 者 用 p 验证 y 的 正确 
性 的 效率 必须 高 于 其 自身 计算 函数 f(x) 的 效率 ,也 必须 高 于 证 明 者 计算 函数 f(z) 的 效率 。 
可 验证 计算 方案 的 安全 性 必须 满足 以 下 条 件 : 一 个 证 明 者 伪造 一 个 不 正确 的 输出 y" 天 
f(z) 和 一 个 证 明 p* 使 得 验证 者 用 p' ES y' 二 f(z) 是 不 可 行 的 。 

概率 检测 证 明 (Probabilistically Checkable Proof. PCP)" *) 也 称 全 息 证 明 (holographic 
proof) ,是 构造 大 多 数 可 验证 计算 的 基础 。PCP 是 由 证 明 者 为 了 证 明 某 一 论断 的 合法 性 而 
产生 的 一 个 串 。PCP 本 身 可 视 作 论断 合法 性 的 证 明 , 但 这 样 做 不 得 不 读 取 整个 PCP, 对 计 
算 上 弱 的 验证 者 来 说 也 许 太 长 而 成 为 负担 。PCP 的 特殊 性 质 是 验证 者 通过 仅 查看 PCP 的 
一 个 常数 数量 的 随机 位 置 就 能 检测 PCP 的 合法 性 。 这 个 方法 能 够 工作 是 因为 任何 不 合法 
的 PCP 必然 在 大 量 的 位 置 上 不 一 致 ,所 以 验证 者 可 用 很 高 的 概率 检测 出 其 不 合法 性 。 这 个 
工具 在 密码 学 和 理论 计算 机 科学 中 有 着 广泛 的 应 用 ,在 文献 [44] 中 有 一 个 比较 好 的 综述 。 

只 有 PCP 不 能 提供 可 验证 计算 ,需要 有 一 些 方法 使 得 证 明 者 可 产生 和 固定 一 个 PCP 
而 无 须 将 整个 串 发 送 给 验证 者 。 证 明 者 简单 地 将 PCP 存储 起 来 并 回答 验证 者 的 询问 ,是 不 
可 行 的 ,因为 证 明 者 可 通过 改变 响应 验证 者 的 询问 的 PCP 部 分 进行 欺骗 。 下 面 简单 总 结 一 
下 以 PCP 为 基础 构造 的 可 验证 计算 的 方法 。 
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特定 的 论断 绑 定 到 一 起 而 又 不 泄露 该 论断 。 承 诺 可 比 论断 本 身 更 小 。 当 证 明 者 产生 论断 本 
身 时 ,验证 者 使 用 承诺 检测 论断 事实 上 是 证 明 者 早期 所 承诺 的 那个 论断 。 如 果 证 明 者 对 整 
个 PCP 计算 一 个 承诺 c 并 将 其 发 送 给 验证 者 ,验证 者 可 向 证 明 者 询问 他 所 希望 看 到 的 PCP 
的 部 分 ,证 明 者 不 得 不 诚实 地 回答 ,这 是 因为 如 果 证 明 者 改变 了 验证 者 希望 看 到 的 PCP 的 
部 分 ,那么 验证 者 就 能 告诉 他 ,这 与 承诺 c 不 匹配 。 

(2) 基于 同 态 加 密 的 可 验证 计算 。 加 法 或 乘法 同 态 加 密 可 用 来 取消 验证 者 关于 PCP 
的 询问 ,但 是 仍然 允许 证 明 者 回答 验证 者 的 询问 。 因 为 证 明 者 仅仅 看 到 加 密 形式 的 询问 ,而 
没有 办 法 知道 如 何在 对 验证 者 的 回答 中 适应 他 的 PCP。 基 于 这 个 思想 的 一 些 构造 可 参阅 
文献 [46-48]。 这 种 方法 的 一 个 优点 是 允许 验证 者 的 询问 被 重用 ,降低 了 验证 所 需要 的 交 
互 量 。 

(3) 基于 交互 的 可 验证 计算 。Goldwasser 和 Cormode 4:5% 4i y T n fap JE F 2c H WE 
明 来 实现 可 验证 计算 。 这 种 方法 允许 证 明 者 和 验证 者 进行 交互 而 不 是 要 求证 明 者 向 验证 者 
发 送 一 个 固定 的 串 户 ,交互 使 得 证 明 者 要 向 验证 者 说 谎 而 不 被 揭穿 变 得 很 困难 。 验 证 者 不 
是 朴素 地 问 关于 在 PCP 具体 位 置 的 值 的 问题 ,而 是 以 一 种 适合 的 方式 进行 询问 ,因此 无 须 
一 个 合法 的 PCP ,否则 ,证 明 者 最 终 将 被 迫 自 相 矛 盾 。 

文献 [51] 对 实用 可 验证 计算 的 实现 作 了 综述 ,其 他 实现 可 参阅 文献 [47 ,52]。 

本 节 主 要 介绍 可 验证 计算 的 一 些 基 本 方法 ,主要 取材 于 文献 [45,46,49]。 


4.2.1 几 个 基本 概念 


本 节 简 要 介绍 后 面 将 要 用 到 的 几 个 基本 概念 , 即 比 特 承诺 、 交 互 证 明 、 零 知识 证 明和 论 
证 系统 。 和 希望 进一步 了 解 这 些 基 本 概念 的 读者 可 参阅 密码 学 教材 ,如 第 1 章 中 的 参考 文 
献 L[53] 。 


l. 比特 承诺 

比特 承诺 (bit commitment) 方 案 可 通过 函数 f (0.1) XY KEM, 3x X AY Æ 
两 个 有 限 集 。 e(o.1 ) 的 密 文 随机 地 在 集合 {f(5.z): x eX ) PRU. 

定义 4-11( 比 特 承 诺 ) 设 X 和 Y 是 两 个 有 限 集 ,f: (0.1 }XX-Y。 称 了 是 一 个 比特 
承诺 方案 ,如 果 它 满足 以 下 两 个 特性 : 

(1) 隐藏 性 (hiding)。 对 0 ef0,1 }, 接 收 者 不 能 从 f(5,z) 确 定 5 的 值 。 

(2) 绑 定 性 (binding)。 发 送 者 能 打开 (也 称 解 开 )f(5,z), 即 发 送 者 能 通过 揭示 辅助 值 
工 使 接收 者 相信 6 是 唯一 可 能 被 加 密 的 值 。 

如 果 发 送 者 想 承诺 任何 比特 串 ;, 那 么 他 可 以 通过 分 别 独 立地 承诺 s 的 每 一 个 比特 来 完 
成 。 比 特 承 诺 方案 可 记 为 f(s.k)。 下 面 介 绍 一 个 基于 Goldwasser-Micali 概率 加 密 算 法 实 
现 的 比特 承诺 方案 。 

首先 介绍 Goldwasser Micali 概率 加 密 算法 外 。 设 n= pq. p 和 g 是 素数 。 选 择 一 个 正 整 数 


(ERME E) RRR n ZARARA (E RR RFR n 的 Jacobi 符号 公 


n 


F n Fil tAE p Hq P-C-ZiK- [ (n.t: ps In pa psa 为 素数 ,1:¢ QR 人 )=1}. 


ES 
n 
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XP K—(O.t pq). XE CINE 2E JJ Ex (zyr) 一 y 一 (yy o v ,其 中 y; tir? mod 
n lin, x= Gn a.) EP, r= (ri srs ,7,) 是 随机 选择 的 一 个 向 量 。 
定义 解密 变换 为 Dk Cy) = Gri «x25 t n2 ,其 中 
0. y, € QR) 
E le » € QRGD 
知道 n 的 分 解 的 用 户 可 通过 下 列 方法 确定 y; 是 否 属于 集合 QRO): 


(1) s (25) sm mod pi j- unm mod q. 


1Eismy-—(yysr»€C 


(2) »€ano»e(3)-1i. (2-1. 
p q 


接 下 来 介绍 一 个 基于 Goldwasser-Micali 概率 加 密 算 法 的 比特 承诺 方案 。 设 n= pqs p 
和 9 都 是 素数 ,m EeQR(n)={z| Gr/ p) — Gc/q) — —1) ,公开 n 和 m,n 的 分 解 只 有 发 送 者 知 
道 。 设 X=Y=Z; . f(b.x)=m'x* mod n, 

CD 承诺 阶段 。 发 送 者 通过 选择 一 个 随机 数 x 加 密 5, 加 密 结果 为 > 一 (CO,z)。 

(2) 打开 阶段 。 当 发 送 者 想 打 开 y 时 ,他 揭示 值 5 和 zx, 接收 者 验证 y m^x? mod n. 

假定 二 次 剩余 问题 是 困难 的 ,那么 f(5,z) 没 有 泄露 关于 45 和 xz 的 任何 信息 。 所 以 该 方 
案 满 足 隐藏 性 。 现 在 说 明 该 方案 满足 绑 定 性 。 若 该 方案 不 满足 绑 定 性 , 则 存在 x sx €Z ， 
使 得 may? =x? (mod n) ,这 样 m— Gradi)? (mod n) 。 说明 m eQR GO BI m 是 一 个 二 次 
剩余 ,这 与 m eQR(n) 相 矛盾 。 

2. 交互 证 明 

设 (P,V) 是 一 个 交互 协议 ,P 和 V 均 具 有 多 项 式 时 间 的 计算 能 力 , 可 视 作 概 率 多 项 式 
时 间 算 法 (也 就 是 多 项 式 时 间 的 概率 算法 ) ,公共 输入 为 zxE 10,1)" ,P 拥有 一 条 私有 知识 带 
S。 设 R 是 {0,1)" 上 的 一 个 多 项 式 时 间 的 二 元 关系 (这 个 关系 是 公开 的 ), 即 R 是 {0,1)}* X 
(0,1) * 的 一 个 子 集 ,如 果 (x,w)ER, 称 x Mw 满足 关系 R, 记 为 R(r,w) 二 1(1 XR EO: 
Vi] , 称 zx 和 不 满足 关系 RR, 记 为 R(t,w) 二 0(0 表示 假 )。 如 果 R 是 满足 下 列 两 个 条 件 的 
{0,1)" 上 的 一 个 二 元 关系 , 则 称 尺 是 {0,1}" 上 的 一 个 多 项 式 时 间 的 二 元 关系 : |w| 不 超 
过 |z| 的 多 项 式 ; @@ 对 任何 z,wE {0,1)" ,可 在 |z| 的 多 项 式 时间 内 检测 出 是 否 Ru A 
真 。 例 如 ,可 以 考虑 下 列 的 二 元 关系 R(x,w) : wir 模 索 数 Q 的 离散 对 数 或 w 是 z 的 一 
个 完全 分 解 。 

定义 4-12( 知 识 的 交互 证 明 系 统 ) 设 (P,V) 是 一 个 交互 协议 ,P AMV 均 为 PPT 算法 ， 
S 是 P 的 私有 知识 带 ,R 是 一 个 多 项 式 时 间 二 元 关系 。 称 (P,V) 是 一 个 关于 R 的 知识 的 交 
互 证 明 系 统 (interactive proof system of knowledge) ,如 果 它 满足 下 列 两 个 条 件 : 

(1) 完全 性 (completeness)。 对 所 有 的 充分 长 的 x, 如 果 在 P 的 知识 带 S 上 存在 一 个 ww 
使 得 R(z,w) 二 1, 并 且 P 和 V 都 遵循 协议 .那么 V 将 以 很 大 的 概率 接受 x, 即 对 每 一 个 二 
0 和 充分 长 的 x: 存在 wES, 使 R(z.w) 二 1,V 至 少 以 1 一 |x|“ 的 概率 接受 x( 即 相信 PP 知 
道 使 R(x,w) 二 1 的 w), 

(2) 合理 性 (soundness)。 对 每 一 个 二 0, 存 在 一 个 PPT 算法 MM 被 允许 在 没有 修改 
或 检查 它 的 私有 知识 带 的 情况 下 ,可 重 置 和 重新 运行 多 项 式 次 P') ,使 得 对 每 一 个 二 0, 对 
所 有 的 P'( 可 能 不 诚实 ) .P' 的 随机 带 RP 和 充分 长 的 x, 如 果 将 xz 作为 (P',V) 的 公共 输入 ， 
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V. BDV | c | ARES c RAK x EAP MARA CP’ ,MD) 至 少 以 1 一 [zl 一 
的 概率 输出 一 个 ww ER (rw) = 1, 

完全 性 是 指 ,如 果 P AGÉ w, WV 以 很 大 的 概率 接受 P 对 xz 的 证 明 。 合 理性 是 指 ,如 果 
P RANË w. M V. 以 很 小 的 概率 接受 P 对 xz 的 证 明 。“P 知道 w” 是 指 存 在 某 一 PPT 算法 
MM 被 允许 在 没有 修改 或 检查 它 的 带子 的 情况 下 可 重 置 和 重新 运行 多 项 式 次 己 ) ,使 得 M 
MP 交互 的 结果 是 ww。 上 述 定 义 中 的 M 称 为 知识 抽取 器 。 知 识 的 证 明 系 统 的 定义 有 多 种 ， 
这 些 定义 之 间 有 一 些微 小 的 差别 ,有 的 书 中 也 将 上 述 定义 的 知识 的 证 明 系 统称 为 强 知 识 的 
证 明 系 统 。 

3. 零 知 识 证 明 

我 们 所 说 的 “语言 "是 指 一 个 集合 L。 因 为 集合 L 中 的 每 个 元 素 x 通常 都 可 编码 成 一 个 
0、1 有 限 长 串 , 该 串 的 长 度 称 为 xz 的 长 度 , 记 为 |z|, 所 以 可 以 抽象 地 将 工 视 作 集 合 {0,1)* 
的 一 个 子 集 。 这 里 {0,1) 表示 所 有 有 限 长 的 0、1 串 构成 的 集合 。 

Ww LC (0.1)* U={U,} cer fll V—(V.),e AE VAI BEL EH JIT A BG LAE ht E (0.1) * 
中 取 值 。 从 U. 或 V, 中 抽取 出 一 批 随机 样本 并 将 这 些 随机 样本 交 给 一 个 判决 者 。 判 决 者 
在 研究 分 析 这 些 样本 之 后 ,将 作出 判决 。 如 果 样 本 来 自 U;, 则 判定 为 0; 如 果 样 本 来 自 V,， 
则 判定 为 1。 如 果 随 着 并 的 长 度 的 增加 ,任何 判决 者 都 无 法 作出 判决 ,或 只 能 与 U- MV, 无 
关 地 随意 判决 ,那么 就 说 UL 本 质 上 可 由 V; 取代 ,或 说 U, 和 V. 不 可 区 分 。 在 这 里 有 两 个 
参数 很 重要 , 即 样本 的 数目 和 判决 者 作出 判决 所 需 的 时 间 。 通 过 对 这 两 个 参数 做 不 同 的 限 
制 就 会 得 到 不 同 的 随机 变量 不 可 区 分 的 概念 ,目前 最 关心 的 不 可 区 分 的 概念 有 3 个 , 即 完美 
不 可 区 分 (perfect indistinguishability) 、 统 计 不 可 区 分 (Cstatistical indistinguishability) 和 计 
算 不 可 区 分 (computational indistinguishablility) 。 

定义 4-13( 完 美 不 可 区 分 ) VE LC (0,1) * J&— ri EU — (UL) cc, M V= {V Src dE 
WIMBSULZE Rt. PK US (QU, e, MVS {V e ERAL 上 是 完美 不 可 区 分 的 ,如 果 对 每 个 
RIK x € L.U, 和 V 的 概率 分 布 相等 , 即 对 每 个 a€ (0.1) * ,Pr(U: 一 ao) 一 Pr(V:- 一 a) 。 
这 时 也 称 U — (U, e, M V= (V. ), ei HAE (equality) 。 

由 定义 可 知 , 如 果 两 族 随 机 变量 U = (U, je HI V — (V. Se ERAL 上 是 相等 的 ,那么 
对 充分 长 的 EL ,判决 者 即使 具有 无 限 的 计算 能 力 和 拥有 无 穷 多 的 样本 ,也 无 法 判定 这 些 
样本 ,来 自 U, 还 是 来 自 V,。 

定义 4-14( 统 计 不 可 区 分 ) 设 LC{0,1)" 是 一 个 语言 ,U 二 {U,}ser 和 V 王 {V;)zer 是 
两 族 随机 变量 。 称 U=={U,),.er 和 V 二 {1V,),er 在 语言 L 上 是 统计 不 可 区 分 的 ,如 果 对 任意 
常数 > 和 每 个 充分 长 的 xEL, 都 有 2) | Pr(Us==@) 一 Pr(V; =a) |<] xz |. 


a€ lo)" 

HH XE SOT Al. WFR DER BG LAS U= {U rer HI V SAV, } er ERA L 上 是 统计 不 可 区 
分 的 ,那么 对 充分 长 的 xEL ,拥有 多 项 式 个 样本 和 具有 无 限 计 算 能 力 的 判决 者 也 基本 上 无 
法 判定 这 些 样本 来 自 U, 还 是 V,。 

上 面 在 给 出 完美 不 可 区 分 和 统计 不 可 区 分 的 定义 时 ,实际 上 将 判决 者 视 作 一 个 概率 算 
法 , 即 带 有 一 条 随机 带 的 算法 。 按 上 述 两 个 定义 ,在 定义 计算 不 可 区 分 性 时 ,可 将 判决 者 视 
作 一 个 PPT 算法 。 但 这 里 将 判决 者 视 作 一 个 多 项 式 规模 或 尺寸 的 电路 族 , 这 是 因为 通常 认 
为 这 种 电路 族 是 一 种 可 能 比 PPT 算法 接收 能 力 更 强 的 计算 装置 。 
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定义 4-15( 多 项 式 规模 的 电路 族 ) i C= 二 {C,}),er 是 一 族 布 尔 电路 ,C, 是 输出 仅 为 0 
或 1 的 布尔 电路 ,C; 的 输入 是 以 x 为 参数 的 随机 变量 BNC, 的 输入 是 按 参数 zx 确定 的 随机 
变量 分 布 的 随机 串 。 如 果 存 在 一 个 常数 e>0, 使 得 对 所 有 的 布尔 电路 C.EC 至 多 有 |z|* 个 
门 ( 门 包括 与 门 、 或 门 . 非 门 等 ) , 则 称 C 为 多 项 式 规模 的 电路 族 。 

为 了 把 来 自 某 一 概率 分 布 的 样本 输入 多 项 式 规模 的 电路 ,这 里 只 考虑 多 项 式 界 随机 变 
HK. RI US (U, } -er 是 一 个 多 项 式 界 随机 变量 族 , 意 指 存在 一 个 常数 4 二 0, 使 得 对 所 有 
的 随机 变量 U, EU 只 对 长 度 不 超过 |z1” 的 串 分 配 正 概率 。 

定义 4-16( 计 算 不 可 区 分 ) 设 U={U,),er 和 V 二 {V,)ser 是 两 个 多 项 式 界 随机 变量 
族 ,C= 二 {C,),er 是 多 项 式 规模 的 电路 族 ,用 Pr(U,C,xz) 表 示 按 U, 分 布 的 随机 串 作 为 输入 
时 ,C; 输出 1 的 概率 。 称 U 和 V 在 语言 L 上 是 计算 不 可 区 分 的 ,如 果 对 任意 常数 C0 RI 
每 个 充分 长 的 xEL, 都 有 |Pr(U,C,zx) 一 Pr(V,C,zx)| 二 |zx|-。 

在 大 部 分 教材 中 ,常用 下 列 等 价 的 方式 表述 计算 不 可 区 分 性 : 两 个 随机 变量 族 U= 
{Ujerz 和 YV={V-)er 称 为 计算 不 可 区 分 的 ,如 果 对 于 任意 多 项 式 规模 电路 族 {C, new o FE 
意 正 多 项 式 PCs) MF EAE n.$8—4- x€ LO (0:1) #4 | PrLC, QU —1]— 


3 u 1 
PLC V=] 565. 


HH XE SCA. OSEE RII B BLA E U — (Ue, HL V = (Vi be ,如 果 它 们 在 语言 L 上 是 
完美 不 可 区 分 的 ,那么 它们 在 语言 L 上 必定 是 统计 不 可 区 分 的 。 下 面 证 明 , 对 于 两 个 多 项 
AA BÉ DLE IKUS (U.) e, HI V = AV, Ser ,如 果 它 们 在 语言 L 上 是 统计 不 可 区 分 的 ,那么 
它们 在 语言 L 上 必定 是 计算 不 可 区 分 的 。 

WC, 是 一 个 电路 ,S, 是 使 得 C, 的 输出 为 1 的 输入 集合 。 因 为 U 和 V 是 统计 不 可 区 
分 的 ,所 以 对 任意 常数 .二 0 和 每 个 充分 长 的 zEL, 都 有 

M | pr, = a) — Pr(V, =a) |<| x |* 


a€ (0,1) * 


而 
| PKU, € S) - PV, € S0 |= | Pr, =a) - Sj PV, = a) 


«eS, €S, 


<)>) | Pr(U, = a) — Priv, = a) | 


«€S, 


< >) | pr, =a) —Pr(v, =a) | 
«€ (0,1) * 


HELA | PrCU, € S) — PrcV, € SO| X |x|. X Pr(QU.C. 3) =Pr(U, € SO.Pr(CV.C. x)= 
Pr(V, € S.) .BErEA|PrQU C3) — PrCcV.Co aD | Dx] EU 和 V 在 语言 L 上 是 计算 不 可 
区 分 的 。 

现在 定义 随机 变量 的 可 通 近 性 (approximability)。 设 M 是 一 个 关于 输入 z 以 概率 1 
停止 的 概率 算法 ,用 M(z) 表 示 一 个 随机 变量 ,该 随机 变量 的 概率 分 布 为 : 对 每 一 个 串 a, 
Pr(M Go) =a) — PrCM 关于 输入 z 输出 a), 即 PrCOM(Cz) 一 oa) 定 义 为 M 关于 输入 zx 输出 a 的 
概率 。 

定义 4-17( 可 逼近 性 ) WE LC (0.1) ,U 一 {U,}),er 是 一 族 随机 变量 , 称 U 在 语言 L 上 
是 完美 (统计 ,计算 ) 可 逼近 的 ,如 果 存 在 一 个 PPT 算法 M, fH (M(x) jer M US {U ber 
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EL 上 是 完美 (统计 、 计 算 ) 不 可 区 分 的 。 

由 定义 可 知 ,随机 变量 的 可 逼近 性 和 随机 变量 的 不 可 区 分 性 密切 相关 ,每 一 种 不 可 区 分 
性 对 应 一 种 可 逼近 性 。 如 果 口 在 世上 是 完美 逼近 的 ,那么 品 在 L 上 必 是 计算 可 逼近 的 。 
当然 我 们 在 谈论 随机 变量 的 计算 不 可 区 分 性 和 计算 可 逼近 性 时 ,是 指 多 项 式 界 随机 变量 的 
计算 不 可 区 分 性 和 计算 可 逼近 性 。 

定义 4-18( 知 识 的 零 知识 证 明 )” 称 一 个 协议 (P,V) 关 于 多 项 式 时 间 关 系 R 是 完美 ( 统 
计 、 计 算 ) 零 知识 的 ,如 果 对 任何 PPT 算法 V'(V 带 有 一 条 附加 输入 带 ,V 的 附加 输入 记 为 
H) ,随机 变量 族 Viewp,v 二 {Viewp,v Gr Ho) oonev X Fili zi L'— (Gc. HO) f£ E WES, fili 
RG uw) —1, |I H| PE | | ASK Lo EER Ce iO npa E. PROP. VOR T E 
式 时 间 关系 及 是 一 个 知识 的 完美 (统计 、 计 算 ) 零 知识 证 明 系 统 ,如 果 它 对 RR 是 一 个 知识 的 
交互 证 明 系 统 并 且 是 完美 (统计 、 计 算 ) 零 知识 的 。 

由 定义 可 知 , 知 识 的 完美 零 知 识 证 明 系 统一 定 是 知识 的 统计 零 知 识 证 明 系 统 , 知 识 的 统 
计 零 知识 证 明 系 统一 定 是 知识 的 计算 零 知识 证 明 系 统 。 通 常 将 知识 的 计算 零 知识 证 明 系 统 
称 为 知识 的 零 知 识 证 明 系 统 ,简称 知识 的 零 知 识 证 明 。 

4. 论证 系统 

论证 系统 (argument system) ,也 称 论 证 协议 (argument protocol) ,是 一 个 计算 上 合理 
的 交互 证 明 系 统 。 一 个 论证 系统 可 由 一 对 交互 PPT 算法 定义 ,一 个 是 证 明 者 P, 另 一 个 是 
验证 者 V。 

定义 4-19( 论 证 系统 /论证 协议 ) ” 设 (P.V) 是 一 个 交互 证 明 系 统 ,P、V 均 为 PPT $$ 
法 。 称 (P,V) 是 一 个 关于 NP 语言 ,合理 性 错误 为 < 的 论证 系统 /论证 协议 ,如 果 它 满足 下 
列 要 求 ， 

(1) 完全 性 。 对 每 一 个 zEL 和 相应 的 NP 证 据 w,V(z) 和 P(xz,w) 的 交互 总 使 V 
接受 。 
(2) 合理 性 。 对 每 一 个 +L 和 每 一 个 有 效 的 (但 可 能 是 非 均 匀 的 ) 敌 意 证 明 者 PI. 
VG P^ (xz) 的 交互 导致 V 接受 的 概率 至 多 为 e(|x|) ,可 能 除了 有 限 多 个 xz 以外。 


4.2.2 基于 承诺 的 可 验证 计算 


本 节 首 先 介绍 关于 承诺 比特 的 零 知 识 证 明 的 概念 ,也 称 为 公正 信封 (notarized 
envelope) ;其 次 介绍 透明 证 明 (transparent proof) 的 基本 性 质 ;再 次 介绍 一 个 关于 NP 语言 
的 渐进 有 效 的 零 知 识 证 明 系 统 ; 最 后 介绍 一 个 关于 NP 语言 的 通信 有 效 的 论证 系统 。 

l. 公正 信封 

对 点 (pair blobs) 表 示 是 证 明 “ 相 等 ”论断 的 基本 工具 之 一 ,其 关键 是 将 每 个 比特 表示 为 
两 个 随机 比特 的 异 或 。 一 个 对 点 的 值 是 指 它 的 两 个 比特 的 异 或 。 用 COMMIT(z; ) 表 示 事 
件 : 证 明 者 P 均匀 地 选择 22.21 € (00.1) ,使 得 zx; 二 x? 中 zi ,并 使 用 理想 的 承诺 方案 对 a? 和 
xi 进行 承诺 ;用 REVEAL(zi) 表 示 事 件 : 证 明 者 P 使 用 理想 的 承诺 方案 揭示 z 和 zi ,验证 
者 V 计算 xz; 一 ?中 zx} 。 基 于 这 些 表 示 , 可 以 使 用 下 面 给 出 的 协议 4-1 在 无 须 揭 示 它 们 的 值 
的 情况 下 ,证 明 两 个 被 承诺 的 比特 是 相等 的 。 

协议 4-1 朴素 地 证 明 xz; 二 xz; 的 协议 , 记 为 PROVE-EQUAL-NAIVCzi zi)。 
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COD P f 220025 的 值 发 送 给 V。 

(2) V 均匀 地 选择 6E10,1) ,并 将 5 发 送 给 P。 

G) 也 使 用 理想 的 承诺 方案 揭示 x? 和 zs ,如 果 Ort 与 第 (1) 步 发 送 的 值 相等 , 则 V 
接受 。 
为 了 不 只 在 一 个 证 明 中 使 用 比特 ,证 明 者 可 简单 地 做 少量 副本 ,验证 者 使 用 PROVE- 
EQUAL-NAIV 检查 副本 的 值 与 原来 的 值 相 等 ,或 者 检查 原来 的 两 个 值 相等 。 无 论 在 哪 一 
种 情形 下 ,每 个 承诺 比特 都 至 少 有 一 个 活 的 (live) 副 本 可 用 于 后 续 的 协议 中 。 这 个 证 明 过 
程 可 由 协议 4-2 来 刻画 。 

协议 4-2” 非 破坏 性 地 证 明 2,=2, 的 协议 , 记 为 PROVE-EQUAL( riyzi)。 

(1) 己 对 zf 好 ,zf 过 进行 承诺 ,其 中 Riv Ee E AY RU AS NEUE Zz; 的 副本 ,每 个 副本 
都 与 原来 的 相等 (注意 : 值 相 等 ,其 对 点 表示 未 必 相 同 ) 。 

(2) V 等 概率 地 请 求 P 使 用 PROVE-EQUAL-NAIV 证 明 以 下 三 者 之 一 : Or — ai. 
cr;—2c;: Qx;,=2),2;=27; Ox;=2x;. WAV E PROVE-EQUAL-NAIV 证 明 中 拒绝 , 则 V 
拒绝 。 

在 情形 下 ,(z; ,zj) 的 新 的 表示 取 为 (zi, 世 ); 在 情形 加 和 加 下 , (x; ,zj) 的 新 的 表示 取 
3j Giszj. 

定义 4-20 it B, ,B, ,…,B, 是 一 组 对 点 ,V 是 任意 一 个 验证 者 , 称 B ,Bs,…,B, 对 V 是 
安全 的 ,如 果 对 任何 (a? al) «Cad sad) «t Cao sah) ACO) 0D GO 401) oe (OL) 4 A a? Da} = 
Bo Db) i 1.2. n A 


Pr( By B; B, = (ay al) Gal 7 Ca? sal) | 立 的 观察 ) 








一 PrCGB, B, B, = (01) G0 031) OD 01) |V 的 观察 ) 
非 正式 地 讲 , 如 果 立 没有 获得 关于 By. Bo s By, 的 内 部 的 表示 (即使 知道 它们 的 值 ), 则 


说 Bi ,B; ,…,B, 对 V 是 安全 的 。 例 如 ,V 也 许 知道 B, 代表 0( 即 其 值 为 0) ,但 他 不 能 区 分 
Bi 一 (0,0) 还 是 B: 一 (1,1)。 

可 直接 推出 ,协议 4-2 具有 下 列 性 质 : 

(1) 如 果 zi 二 zj P 遵从 协议 , 则 V 总 是 接受 。z; 和 zx; 的 新 的 对 点 与 原来 的 对 点 有 同 
样 的 值 。 


(2) 如 果 zx; 二 xz , 则 任何 验证 者 V 的 观察 都 独立 于 zx; 和 zi 的 实际 值 。 如 果 在 协议 开始 


时 ac, 和 xz) 的 对 点 对 V 是 安全 的 , 则 在 协议 执行 完 之 后 对 V 也 是 安全 的 。 

G) 如 果 a, Acc, , 则 不 管 证 明 者 如 何 使 用 策略 ,V 拒绝 的 概率 至 少 为 1/6。 

(4) 如 果 x; =a; , 则 不 管 证 明 者 (可 能 是 恶意 的 ) 记 如何 使 用 策略 , 则 在 协议 的 第 (1) 步 
结束 后 下 列 情况 之 一 必定 成 立 : OV 被 确保 至 少 以 1/6 的 概率 拒绝 ; Ox; Mar, 的 新 对 点 被 
确保 与 原来 的 对 点 有 相同 的 值 。 

公正 信封 允许 证 明 者 对 一 组 比特 {61,5 ,… ,6b,) 进 行 承诺 ,在 后 来 的 某 时 刻 可 证 明 某 一 
谓词 P(61,6s,…,b,) 对 这 些 比特 成 立 而 无 须 揭示 这 些 承 诺 值 的 任何 信息 。 文 献 [45] 中 给 出 
了 如 下 定理 。 
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COD P f 220025 的 值 发 送 给 V。 

(2) V 均匀 地 选择 6E10,1) ,并 将 5 发 送 给 P。 

G) 也 使 用 理想 的 承诺 方案 揭示 x? 和 zs ,如 果 Ort 与 第 (1) 步 发 送 的 值 相等 , 则 V 
接受 。 
为 了 不 只 在 一 个 证 明 中 使 用 比特 ,证 明 者 可 简单 地 做 少量 副本 ,验证 者 使 用 PROVE- 
EQUAL-NAIV 检查 副本 的 值 与 原来 的 值 相 等 ,或 者 检查 原来 的 两 个 值 相等 。 无 论 在 哪 一 
种 情形 下 ,每 个 承诺 比特 都 至 少 有 一 个 活 的 (live) 副 本 可 用 于 后 续 的 协议 中 。 这 个 证 明 过 
程 可 由 协议 4-2 来 刻画 。 

协议 4-2” 非 破坏 性 地 证 明 2,=2, 的 协议 , 记 为 PROVE-EQUAL( riyzi)。 

(1) 己 对 zf 好 ,zf 过 进行 承诺 ,其 中 Riv Ee E AY RU AS NEUE Zz; 的 副本 ,每 个 副本 
都 与 原来 的 相等 (注意 : 值 相 等 ,其 对 点 表示 未 必 相 同 ) 。 

(2) V 等 概率 地 请 求 P 使 用 PROVE-EQUAL-NAIV 证 明 以 下 三 者 之 一 : Or — ai. 
cr;—2c;: Qx;,=2),2;=27; Ox;=2x;. WAV E PROVE-EQUAL-NAIV 证 明 中 拒绝 , 则 V 
拒绝 。 

在 情形 下 ,(z; ,zj) 的 新 的 表示 取 为 (zi, 世 ); 在 情形 加 和 加 下 , (x; ,zj) 的 新 的 表示 取 
3j Giszj. 

定义 4-20 it B, ,B, ,…,B, 是 一 组 对 点 ,V 是 任意 一 个 验证 者 , 称 B ,Bs,…,B, 对 V 是 
安全 的 ,如 果 对 任何 (a? al) «Cad sad) «t Cao sah) ACO) 0D GO 401) oe (OL) 4 A a? Da} = 
Bo Db) i 1.2. n A 


Pr( By B; B, = (ay al) Gal 7 Ca? sal) | 立 的 观察 ) 








一 PrCGB, B, B, = (01) G0 031) OD 01) |V 的 观察 ) 
非 正式 地 讲 , 如 果 立 没有 获得 关于 By. Bo s By, 的 内 部 的 表示 (即使 知道 它们 的 值 ), 则 


说 Bi ,B; ,…,B, 对 V 是 安全 的 。 例 如 ,V 也 许 知道 B, 代表 0( 即 其 值 为 0) ,但 他 不 能 区 分 
Bi 一 (0,0) 还 是 B: 一 (1,1)。 

可 直接 推出 ,协议 4-2 具有 下 列 性 质 : 

(1) 如 果 zi 二 zj P 遵从 协议 , 则 V 总 是 接受 。z; 和 zx; 的 新 的 对 点 与 原来 的 对 点 有 同 
样 的 值 。 


(2) 如 果 zx; 二 xz , 则 任何 验证 者 V 的 观察 都 独立 于 zx; 和 zi 的 实际 值 。 如 果 在 协议 开始 


时 ac, 和 xz) 的 对 点 对 V 是 安全 的 , 则 在 协议 执行 完 之 后 对 V 也 是 安全 的 。 

G) 如 果 a, Acc, , 则 不 管 证 明 者 如 何 使 用 策略 ,V 拒绝 的 概率 至 少 为 1/6。 

(4) 如 果 x; =a; , 则 不 管 证 明 者 (可 能 是 恶意 的 ) 记 如何 使 用 策略 , 则 在 协议 的 第 (1) 步 
结束 后 下 列 情况 之 一 必定 成 立 : OV 被 确保 至 少 以 1/6 的 概率 拒绝 ; Ox; Mar, 的 新 对 点 被 
确保 与 原来 的 对 点 有 相同 的 值 。 

公正 信封 允许 证 明 者 对 一 组 比特 {61,5 ,… ,6b,) 进 行 承诺 ,在 后 来 的 某 时 刻 可 证 明 某 一 
谓词 P(61,6s,…,b,) 对 这 些 比特 成 立 而 无 须 揭示 这 些 承 诺 值 的 任何 信息 。 文 献 [45] 中 给 出 
了 如 下 定理 。 
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定理 4-4 存在 一 个 协议 PROVE-CIRCUIT Gr, «a2 7 m, C) Pn G— 1.2.7. 
作为 随机 的 对 点 被 承诺 ,C 是 一 个 具有 nn 个 门 的 电路 ,该 协议 具有 下 列 特性 : 

CD. 协议 需要 至 多 O(n) 个 比特 承诺 、 关 系 和 通信 比特 。 

(2) 如 果 Clai ,zs，,… ,zi) 二 1 JFE P 总 是 遵从 协议 , 则 : OV 总 是 接受 ; 如 果 在 协议 


开始 时 zi sans sn ,xi 的 对 点 对 V 是 安全 的 ,那么 在 协议 执行 完 之 后 zi ears ent ,zi 的 对 点 (可 


能 不 同 ) 对 V 也 是 安全 的 ; @ 存 在 一 个 期 望 的 多 项 式 时 间 模 拟 器 S(V,C) 可 模拟 V, 仅 将 V 作 
为 其 预言 器 。 

G) 如 果 CCzz ttt sx) AL. V D 1/12 的 概率 拒绝 。 

2. 透明 证 明 

Babai ^$ f JH T 3& B] GE BA) 3x — Bp JP EB T (E fal NP 论断 在 做 一 些 初始 化 预 处 理 
后 ,都 存在 一 个 可 在 多 项 式 对 数 时 间 内 被 检测 的 多 项 式 尺寸 的 证 据 。 

iL 是 一 个 NP 语言 ,一 个 透明 证 明 可 以 用 参数 (c,C,Q,A) 表 示 。 其 中 C 表示 编码 算 
法 CODE, 是 一 个 简单 的 ,多 项 式 时 间 算 法 ;Q 表示 询问 算法 QUERY ,是 一 个 多 项 式 对 数 时 
间 算法 ;A 表示 接受 算法 ACCEPT ,是 一 个 多 项 式 对 数 时 间 算 法 。 验 证 zxEL 的 过 程 如 下 : 

CD PP 使 用 C 将 xz 转换 为 一 个 串 z 二 C(x), 并 将 zz 发送 给 V, 这 里 也 假定 V 知道 |zx|=n。 

(2) P Tf o 的 部 分 内 容 提供 给 V ,透明 证 明 EL, 

(2.1) V 产生 一 个 长 为 lg? 的 随机 比特 串 7 ,计算 g=, r) ,并 产生 他 自己 希望 看 到 
的 多 项 式 对 数 多 个 w 和 xz 的 下 标 。 这 样 ,V 就 能 请 求 看 w 的 第 5、11 和 31 位 以 及 xz 的 第 3、 
21 位 ,dg So 和 >z“ 本 质 上 是 相互 独立 的 。 

(2.2) 一 个 预言 器 以 一 个 序列 a 提供 给 V,a 由 对 V 的 询问 的 回答 构成 。V 计算 Ar， 
qsa) WE ACr qa) — 1,90] V 接受 。 

WR EL 并 且 忆 能 够 正确 地 构造 w, 则 V 总 是 接受 ;如 果 EL WERE o 的 值 是 多 
DV 至 少 以 1/2 的 概率 拒绝 。 

3. 渐进 有 效 的 零 知 识 证明 系 统 

基于 文献 [53] 中 的 透明 证 明 的 存在 性 ,文献 [45j] 中 给 出 了 一 个 关于 工 的 零 知 识 证 明 系 
统 , 记 为 EFFICIENT-PROOF(z,w,k,c,C,Q,A) ,下面 描述 这 一 协议 。 

协议 4-3 EFFICIENT-PROOFCz,w,k,c,C,Q,A)。 

COD PP 和 V 计 算 xz’==C(z),n 二 |zx|,P 使 用 对 点 对 w 进行 承诺 。 

(2) V 均匀 选择 rE 10,1)*" 并 将 发 送 给 P。 

(3) P fi V 计算 g= 二 Qn,r),P 用 零 知识 证 明 A(r.g,a) 二 1,a HB qux Mo 的 承诺 值 定 
义 ,如果 V 接受 这 个 证 明 , 则 V 接受 。 

(4) 为 了 达到 2 错误 概率 ,P 和 V 运行 第 (2) 步 至 第 (3) 步 共 24k 次 ,如 果 V ERKE 
代 中 都 接受 , 则 V 就 接受 。 

协议 4-3 具有 下 列 性 质 55] ， 

(1) 协议 4-3 是 证 明 系 统 , 即 假定 (c,C,Q,A) 形 成 了 一 个 关于 工 的 透明 证 明 系 统 ,并 且 
正确 证 明 以 概率 1 接受 ,不 正确 断言 至 少 以 1/2 的 概率 被 拒绝 , 则 有 如 下 结论 : 如 果 w 是 
关于 x EL 的 一 个 正确 透明 证 明 , 那 么 V 以 概率 1 接受 ; @ 如 果 x4L, 那 么 V 以 概率 2 
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拒绝 。 

(2) 协议 4-3 是 有 效 的 , 即 设 s>0 是 一 个 固定 常数 , 则 存在 一 个 关于 布尔 电路 可 满足 
问题 的 透明 证 明 (c,C,Q,A) 使 得 协议 4-3 即 EFFICIENT-PROOF Gro. c. C,Q, AD fli E 
OGaTr 十 (lg299n)k) 个 理想 的 比特 承诺 、 关 系 和 通信 比特 。 

(3) 协议 4-3 是 零 知 识 的 。 

布尔 电路 可 满足 问题 是 : 给 定 一 个 单 比 特 输出 的 电路 C, 是 否 有 一 个 输入 使 得 C 的 输 
出 是 12 

为 了 进一步 理解 上 述 基 本 理论 和 基本 概念 ,这 里 给 出 协议 4-3 是 证 明 系统 的 证 明 。 

如 果 w 是 一 个 关于 x € L 的 正确 证 明 , 则 对 任何 rE (0,1) " ,总 有 A(r,q,a) 一 1, 这 里 
q—QG:.r).a B qa flo 的 承诺 比特 确定 。 在 这 种 情况 下 ,由 定理 4-4 可 知 ,V 将 总 是 接受 
P 对 这 个 正确 论断 的 证 明 。 如 果 zx 多 7, 则 对 任何 被 承诺 的 w, 至少 以 1/2 的 概率 使 得 AC, 
qd,a) 天 1。 每 当 这 种 情况 发 生 , 忆 将 不 得 不 在 协议 的 第 (3) 步 证 明 一 个 不 正确 的 断言 ,此 时 由 
定理 4-4 可 知 ,V 将 以 1/12 的 概率 拒绝 。 这 样 在 第 (2) 步 和 第 (3) 步 的 每 次 欠 代 中 ,不 管 先 
前 迭代 的 情况 如 何 ,V 将 捕获 一 个 错误 论断 的 概率 至 少 为 1/24。 因 此 ,P 在 所 有 24k 次 迭 
代 中 继续 生存 的 概率 至 多 为 (1 一 1/24)”* 二 2。 

4. 通信 有 效 的 论证 系统 

现在 说 明 在 合理 的 假设 下 如 何 将 上 述 关 于 NP 语言 的 零 知识 证 明 系 统 转 化 为 通信 有 效 
的 论证 系统 。 上 述 证 明 系统 需要 昂贵 的 建立 代价 ,而 论证 系统 不 需要 这 样 高 的 代价 。 在 忽 
略 通信 代价 的 情况 下 ,在 理想 的 比特 承诺 模型 下 可 直接 将 一 个 证 明 系 统 转化 为 一 个 论证 系 
统 。 下 面 先 介 绍 这 个 朴素 的 转化 方法 。 

Kl 是 证 明 者 的 安全 参数 ,首先 已 和 YV 协商 一 个 信息 论 意义 上 安全 的 点 (blob) 系 统 , 可 
3m BLOB,, : (0,1) (0,1) X (0,1) CHECK, :(0,1) X (0,1) (0,1), We. A 
定 一 个 比特 b, BLOB, (b) j^ ^E — Xt (C. RO fli f$ CHECK, (C. R) =6, XE C 是 关于 4 的 
点 ,R 是 用 于 揭示 2 的 串 。 忆 通过 产生 (C,R) 来 承诺 0, 并 将 C 发 送 给 V。 己 通过 发 送 尺 向 
V 揭示 5,V 计算 CHECKi(C,R)。 这 里 所 给 出 的 零 知识 论证 系统 基于 以 下 两 个 假设 : 

(1) 由 BLOB, CO ffÜ BLOB, CD S WIZE C 上 的 分 布 是 相同 的 。 

(2) 产生 一 个 三 重组 (C,R,R') 使 得 CHECKi(C,R)==0,CHECKi(C,R')=1 是 计 
算 上 不 可 行 的 。 

其 次 ,对 零 知 识 证 明 协议 进行 直接 修改 ,这 里 以 协议 4-3 为 例 。 协 议 的 第 (2) 步 和 第 (4) 
步 与 原 协议 一 样 。 在 协议 的 第 (1) 步 中 ,P d o 转化 为 一 个 对 点 表示 ,使 用 BLOB, 对 这 些 
比特 进行 承诺 ,将 所 得 的 结果 记 为 Bi ,B: ,…,B,。 协 议 的 第 (3) 步 与 原 协议 的 一 样 , 但 在 证 
明 中 还 要 对 所 需 的 承诺 和 关系 使 用 安全 的 点 系统 。 

我 们 看 看 修改 后 的 协议 的 通信 代价 。 在 第 (1) 步 需要 OO D A38 fr ECTS «TE SB (2) 2b 
和 第 (3) 步 仅 需 O(Ng'1) (对 某 一 常数 c) 个 通信 上 比特。 问题 是 本 质 上 在 第 (1) 步 承诺 的 所 有 比 
特 在 第 (2) 步 和 第 (3) 步 的 单个 执行 中 都 不 需要 。 如 果 仅 仅 不 得 不 付出 打开 1 比特 承诺 ( 即 
解 开 或 揭示 1 比特 承诺 ) 的 代价 时 ,在 假定 充分 强 的 密码 Hash 函数 存在 时 ,可 使 这 个 协议 
更 有 效 。 

假定 {Fi } 是 一 族 满足 下 列 条 件 的 多 项 式 时 间 可 计算 的 Hash 函数 : 
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OD Fi 是 一 个 从 {0,1}* 到 {0,1}! 的 函数 。 

(2) 对 每 一 个 多 项 式 规 模 的 电路 族 {Ci) ,C,(k) 产 生 zy 使 得 Fi GO = FL, GO (根据 某 
一 概率 多 项 式样 本 分 布 来 选择 Fi. ) 的 概率 增长 得 比 1 “小 (对 任何 常数 c)。 

下 面 的 协议 4-4 和 协议 4-5 说 明了 如 何 使 用 这 样 的 Hash 函数 便宜 地 对 大 量 的 点 进行 
承诺 ,而 且 可 便宜 地 揭示 这 些 点 中 的 一 个 单一 点 。 

协议 4-4 便宜 地 承诺 若干 比特 的 协议 , 记 为 PACK(L,C: ,Cs ,Cz )。 

CD V 应 允 一 个 适当 分 布 的 Hash 函数 F, o 

(2) X i—1,2,-,n,j—0,1,--,27 —1,:£8 X. C1 C, Ci F4 CC C1), P E CS 
发 送 给 V。 

协议 4-4 实际 上 是 使 用 上 述 的 Hash 函数 构造 了 一 棵 承诺 二 元 树 , 树 的 每 个 叶子 对 应 
证 明 者 承诺 的 点 之 一 ,点 对 应 树 的 节点 ,节点 是 其 两 个 孩子 的 一 个 Hash 表示 。 证 明 者 通过 
发 送 点 对 应 的 树 的 根来 承诺 整 棵 树 。 

协议 4-5 抽取 一 个 点 的 协议 , 记 为 EXTRACT (Fis 1: C; Co Co ) ,表示 揭示 
点 Cr。 

CD XE i— 1,2, n P EXEC, ACL AV. 

(2) XE i— 1,2, n, V EC, m Fa (Ca ,Cu ) 是 否 成 立 ,如 果 成 立 ,V 恢复 Ci 
二 07 ,否则 拒绝 。 

在 协议 4-5 中 ,证 明 者 通过 揭示 每 个 Hash 点 (hashed blob)、 从 根 到 叶子 的 路 径 和 这 些 
Hash 点 的 孩子 来 揭示 一 个 点 的 表示 (不 同 于 揭示 那个 点 的 内 容 ) 。 

协议 4-6 一 个 关于 NP 语言 的 有 效 论 证 系统 , 记 为 EFEICIENT-ARGUMENT(zx,w， 
1,¢,C,Q,A). 

CD Pl V. 协商 一 个 信息 论 意义 上 安全 的 点 承诺 方案 ( 记 为 BLOB 和 CHECK) 和 一 个 
密码 学 上 安全 的 Hash 函数 Firo 

(2) P fV il TE x'—CGO.n—|zl.P 把 w 转化 为 一 个 对 点 表示 ,使 用 BLOB 产生 点 
(Co ;Ro),(Ci ROS OG, o Rm) ,并 使 用 协议 4-4 对 Co Ci n Cu 进行 承诺 ,这 里 假定 m 
是 2 E. 

(3) V 均匀 地 选择 ~E{0,1)" 并 将 r 发 送 给 已 。 

(4) P f V ibfE q—QGG. 7) .P 用 零 知 识 证 明 A(r,q:a)=1,a 由 gq,x 和 w 的 承诺 值 定 
义 。 每 当 P 不 得 不 揭示 由 一 个 点 Cr 表示 的 一 个 比特 时 ,P 首先 运行 EXTRACTCFE; I 
Ci Cyt Co) ,然后 将 Ri 发 送 给 V。V 通过 计算 CHECK(Ci,Ri) 恢 复 那个 揭示 的 比特 。 
如 果 V 接受 这 个 证 明 ,V 就 接受 。 

现在 需要 构造 零 知 识 点 和 安全 的 Hash 函数 。 这 两 个 需求 都 可 以 通过 称 为 无 爪 (claw- 
free) 对 置换 来 达到 。 即 ,需要 产生 函数 对 (FF,G) 使 得 找到 一 对 (zx,y) 满 足 FC) =G( BA 
YEN, BM. n=pq-p Ma 都 是 素数 ,P 不 知道 p 和 gq .a 是 一 个 随机 的 模 n 的 二 次 剩余 ， 
4 (zr) 二 zx?* mod n.GCy) —ay! mod zzyy 天 0。 如 果 能 找到 一 个 碰撞 对 (z,y) ,那么 就 能 
找到 a 的 一 个 平方 根 , 即 xy- 。 当 然 , 验 证 者 必须 使 P 相信 a 是 一 个 二 次 剩余 ,否则 ,证 明 
不 再 是 零 知 识 的 。 文 献 L[54] 中 提出 了 一 个 构造 无 爪 对 置换 的 方法 。 假 定 计算 模 素数 p 的 
离散 对 数 是 困难 的 ,即使 给 定 了 p—1 的 因子 分 解 。 给 定 Z; 的 一 个 生成 元 g 和 一 个 随机 选 
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择 的 cEZ，;: S F(a) =g".Gly)=ag’. WR F(x) =GCy). W logsa 二 x 一 y。V 能 选择 p、 
ga 使 得 p 一 1 具有 已 知 的 因子 分 解 ,并 发 送 这 个 信息 给 P。 给 定 p 一 1 的 因子 分 解 ,P 能 平 
凡 地 验证 g 是 Z; 的 生成 元 。 因 此 ,整个 协议 仅 需 OC(7) 个 通信 比特 。 

使 用 已 知 的 最 有 效 的 构造 方案 ,可 由 协议 4-6 构造 出 一 个 总 的 通信 量 为 Odg G0 D (对 
某 一 常数 c) 的 论证 系统 。 这 是 由 于 在 这 个 协议 中 ,第 (1) 步 和 第 (2) 步 仅 需 O(7) 个 通信 比 
特 , 第 (3) 步 仅 需 O(lg'z) 个 通信 比特 ,第 (4) 步 需要 Odg 7z)( 对 某 一 常数 cl ) 个 承诺 和 关系 ， 
每 个 这 样 的 操作 需要 至 多 O(lg(z)2) 个 通信 比特 。 


4.2.3 基于 同 态 加 密 的 可 验证 计算 


大 部 分 有 效 的 论证 系统 的 构造 都 采用 两 段 法 , 即 首先 把 一 个 经 典 的 证 明 转 化 为 一 个 明 
确 的 多 项 式 尺 寸 的 PCP 串 ( 一 个 编码 证 明 (encoded proof) ;然后 应 用 基于 树 的 密码 Hash 
技术 承诺 这 个 串 ,并 在 后 来 打开 由 验证 者 选择 的 一 小 部 分 比特 。4. 2. 2 节 介绍 的 论证 系统 
就 使 用 了 这 种 方法 。 本 节 介 绍 另 外 一 种 方法 ,这 种 方法 将 两 步 全 为 一 步 ,即将 PCP 视 作 一 
个 函数 x:F" 习 下 ,其 定义 域 是 指数 尺寸 的 ,但 计算 可 以 在 多 项 式 时 间 内 完成 。 如 果 诚 实 的 证 
明 者 计算 一 个 在 有 限 域 玉 上 的 线性 函数 ,就 把 x 称 为 线性 PCP。 这 里 仅 讨 论 线性 的 情况 ， 
但 这 些 方法 可 以 推广 到 一 般 的 情况 。 本 节 首 先 介 绍 线性 PCP 和 线性 MIP 的 基本 概念 ,其 
次 介绍 一 个 具有 线性 解 开 承 诺 的 承诺 方案 ,最 后 介绍 一 个 基于 线性 MIP 的 有 效 的 论证 
系统 。 


1. 线性 PCP 和 线性 MIP 

以 下 假定 表示 一 个 输入 长 度 参 数 或 证 明 长 度 参 数 ,所 有 诚实 的 参与 方 的 运行 时 间 都 
是 关于 的 多 项 式 , 我 们 也 将 使 用 其 他 参数 ,如 密码 安全 参数 &、 基 域 和 合理 性 参数 。, 为 
方便 起 见 ,这 些 参 数 都 可 看 作 是 由 n 确定 的 。 

粗略 地 讲 ,一 个 线性 MIPCMultiprover Interactive Proof, 多 证 明 者 交互 证 明 ) 由 一 个 7 
重 证 明 预 言 器 (x eoo e ,zi) 组 成 ,其 中 每 个 x (i 二 1,2,… ,1) 都 是 一 个 线性 函数 xi:F" 一 FF， 
下 是 一 个 有 限 域 。 验 证 者 选择 一 个 / 重 询问 (gi qoem) EF" (i 二 1,2,… D ,并 得 到 回 
答 m (n e (qe) oe om (qu) ;基于 输入 zx 和 这 些 回 答 ,V 或 者 接受 或 者 拒绝 。 完 全 性 要 求 对 
每 个 xzEL, 存 在 如 上 所 述 的 线性 函数 (x ,xs,… ,x ) 使 得 V 以 概率 1 接受 。 合 理性 要 求 对 
每 个 zgL 和 任何 (敌意 选择 的 ,可 能 是 非 线性 的 ?证明 函 数 (元 exo ox SV. 接受 的 概率 至 
多 是 es。 类 似 于 PCP. MIP 的 关键 特征 是 证 明 函 数 元 必须 在 询问 被 V 随机 选择 之 前 固定 。 

定义 4-21( 线 性 MIP) 一 个 关于 NP 语言 L 的 线性 MIP 是 由 一 个 PPT 验证 者 V 和 一 
个 多 项 式 时 间 证 明 者 算法 已 组 成 (P 被 用 于 实现 多 证 明 者 )。 任 何 输入 xE10,1)* 确定 证 
明 长 度 参数 n= 二 poly(|z|) .证明 者 个 数 1 二 1(n)、 有 限 域 下 = 二 F(n) 和 合理 性 错误 参数 e= 
s(n) 。 验 证 者 和 证 明 者 都 知道 这 些 参 数 。 一 旦 一 个 输入 xz 和 一 个 相应 的 NP 证 据 w 被 固定 ， 
H x, ES PG xo. * 0.8 P HUE— A 重 证 明 函 数 (m ,xs,… ern ,返回 对 验证 者 的 询问 
di 的 回答 。 每 个 x; 都 是 一 个 线性 函数 x;:F" 习 下 , 即 对 所 有 的 g,gq EF" RA a (gtq) = 
mD trl). Æ V 和 PP 之 间 的 交互 过 程 如 下 : 

CD V SEF r 选择 一 个 1 重 序列 (gi ,gs，…,g1) gi EF"(i=1,2,*… ,1)。 

(2) 每 个 q; 被 发 送 给 相应 的 证 明 者 ,证 明 者 用 xi(g;) 来 回答 。 
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(3) 验证 者 V 基于 它 的 随机 输入 和 7 个 回答 ,决定 是 接受 还 是 拒绝 。 

一 个 具有 合理 性 错误 (也 称 为 合理 性 概率 )e 的 线性 MIP 还 需 满足 下 列 要 求 : 

COD 完全 性 。 对 每 一 个 zEL 和 相应 的 证 据 w ,都 有 

Pr[VGe.qi sg gm (In dori (322 «7; = ACC] = 1 

这 里 的 概率 是 在 由 V 随机 选择 的 询问 (gi ,qs，… ,gi) 上 ,zi(gi) 二 P(i,z,w,gi)。 

(2) 合 理性 。 对 每 一 个 zgL 和 任何 (可 能 是 非 线 性 的 和 计算 上 不 是 很 有 效 的 ) 证 明 函 
Ga ,元 ，… ,元 ) ,都 有 

Pr[V Gr.qi oqo 5 qui (n 22 (4D (qi) = ACC] S eln) 

这 里 的 概率 是 在 V 的 随机 性 上 。 

如 果 固 定 合理 性 错误 e(n) 为 一 个 常数 ,比如 1/2, 此 时 置 1(n) 二 O(1) 是 充分 的 。 通 过 
使 用 c 次 独立 的 重复 (证 明 者 的 集合 不 相交 ) ,合理 性 错误 可 降低 到 2 ,1==O(o)。 

特别 地 , 当 诚 实 的 证 明 者 都 使 用 同一 个 函数 ce HI oy 一 到 一 … 一 到 一 工时 ,一 个 线性 MIP 
就 是 线性 PCP, 这 说 明 MIP 是 PCP 的 一 种 推广 ,而 PCP 是 MIP 的 一 种 特例 。 定 义 一 种 线 
性 PCP 的 变形 , 称 作 弱 线性 PCP, 如 果 合理 性 仅 能 在 伪造 的 证 明 元 是 线性 的 时 候 保证 成 立 。 

下 面 讨论 如 何 构 造 弱 线 性 PCP .线性 PCP 和 线性 MIP。 设 zxE{0,1 六 是 NP 论 断 (zE 
工 ) 的 一 个 输入 ,o 是 相应 的 证 据 ;C 二 C(xz,w) 是 一 个 尺寸 ( 门 ) 为 ; 的 电路 ,用 于 测试 w 关于 
x 的 合法 性 。 用 C 的 每 个 门 j 关联 一 个 变量 Z;。 现 在 C 关 于 xz、w 的 可 满足 性 可 表示 为 下 
列 条 件 的 联合 : 

CD u 条件 ,对 应 的 “个 输入 门 由 zz 标记 ,具有 形式 Z mai 1.2. u AUR ui 
入 门 和 实际 输入 ac 的 一 致 性 ,对 于 由 w 标记 的 输入 门 没 有 类 似 的 限制 。 

(2) 对 应 电路 的 内 部 门 的 条 件 , 具 有 形式 (1 一 ZZ;) 一 Zi 二 0, 测 试 Z 和 一 个 NAND 门 
输出 的 一 致 性 ,其 中 NAND 门 的 两 个 输入 来 自 门 Z; MZ. 

(3) 一 个 形式 Z,=1 的 条 件 ,测试 电路 的 输出 是 1。 

为 了 去 掉 最 后 一 个 条 件 ,可 固定 Z,=1。 总 的 来 说 ,有 条 件 m-—s 的 限制 。 

1) 弱 线 性 PCP 的 构造 

Jio n—OGOD i z E BUS Zi Zi Z 的 值 , 即 电路 关于 输入 Cz,ow) 的 所 有 门 的 实 
际 值 。 证 明 预 言 器 x 可 以 写成 一 个 线性 函数 fa ,其 中 d= (>,zGz),aC92 表示 所 有 的 |a| + 
lol ME aib; 的 级 联 。 验 证 证 明 涉 及 验证 d HU Hot ER C 2002) (对 某 一 >) 并且 = 满足 
所 有 上 述 条 件 。 

第 一 步 : 验证 d 的 形式 。 验 证 者 随机 选择 wm ,ye ERF: HWE zy) e ley) = eO 
zy Oy) ,这 个 归结 起 来 是 计算 3 个 d 的 元 素 的 线性 组 合 , 可 通过 对 的 3 次 询问 来 完成 。 
如 果 二 具有 所 声称 的 形式 , 则 它 总 能 通过 测试 ;然而 如 果 不 具有 这 种 形式 , 则 测试 至 少 以 


1/4 的 概率 失败 ,从 而 证 明 被 拒绝 。 这 是 因为 ,假定 4 — (=U) LU 视 作 一 个 *Xs 矩阵, 设 
立 是 另 一 个 *Xs 和 矩阵。 验证 者 的 任务 可 视 作 测试 是 否 U=V。 测 试 本 质 上 是 比较 yyUy。 和 
yaVys。 如 果 U 关 V, 则 向 量 y Uy V 至 少 以 1/2 的 概率 不 同 ,因此 ,(wmU)y 和 天 (ywV)y 的 
概率 至 少 为 1/4。 

第 二 步 : 验证 者 测试 x 通过 关于 电路 的 条 件 ( 为 方便 起 见 ,这 里 假定 证 明 x 已 经 通过 上 
述 测试 并 具有 正确 的 形式 )。 注 意 ,m 个 条 件 中 的 每 一 个 都 能 表示 为 形式 Q;(z) 二 0, 这 里 Q 
是 一 个 次 数 至 多 为 2 的 关于 Zi ,2Z,,… ,2Z, 的 多 变量 多 项 式 。 通 过 随机 选择 v€ RF” 并 验证 
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Q(z) = Slo, + Q(z) = 0 线性 测试 是 否 Qi ,Q, ,…,Q。 都 等 于 0。 如 果 每 个 Q(z) 都 等 于 


0, 则 Q,(z) 二 0; 如 果 对 至 少 一 个 i, 有 Qi GO 750, Qu GO —0 的 概率 是 1/|F|。 注 意 到 
Q,(x) 本 身 是 一 个 次 数 为 2 的 多 项 式 , 因 此 ,询问 Q,(x) 的 值 也 能 被 表示 为 对 fa 做 一 个 线性 
查询 ,这 里 d=(z,2z@z). 

EER PCP 证 明 中 的 每 个 查询 具有 形式 q€ F" ln s 十 s, 并 且 诚实 的 证 明 者 的 回答 具 
有 形式 (d,q) , 弱 线 性 PCP 的 合理 性 依赖 于 如 下 事实 : 一 个 假 的 证 明志 二 了 ;一 定 被 上 面 描述 
的 两 次 测试 中 的 一 次 捕 提 到 (除了 至 多 一 个 常数 概率 )。 

2) 线性 PCP 的 构造 

构造 线性 PCP 的 基本 思路 是 基于 弱 线 性 PCP 来 转化 。 给 定 一 个 弱 线性 PCP 的 验证 者 
V ,其 合理 性 只 有 在 假 的 证 明 仍然 是 线性 的 情况 下 才能 保证 ,可 将 V 转化 为 没有 做 任何 这 样 
假设 的 验证 者 V', 这 个 转化 使 用 了 标准 的 测试 和 自 纠正 方法 。 

设 证 明 为 x:F" 习 RF。 首先 ,将 弱 线 性 PCP 转化 为 一 个 光滑 的 弱 线 性 PCP, 也 就 是 ,这 里 
的 每 个 询问 g 都 独立 地 均匀 分 布 在 上。 为 了 将 一 个 非 光滑 的 弱 PCP 转化 为 一 个 光滑 的 
弱 PCP, 验 证 者 V 用 一 对 随机 选择 的 满足 条 件 qi Hae =q FY qi vq, 代替 每 个 询问 g。 给 定 这 
些 询问 的 回答 ,V 计算 x(g) 二 x(gqi) 十 x(qs) ,注意 到 在 这 种 情况 下 正确 的 证 明 x 和 假 的 证 明 
元 都 是 线性 的 ,所 以 没有 影响 接受 的 概率 。 因 此 ,从 现在 起 可 以 假定 弱 PCP 已 经 是 光滑 的 。 
粗略 地 讲 ,V 除了 开始 于 证 明 x 的 一 个 线性 测试 外 ,其 他 工作 流程 与 V 一样 , 即 “随机 地 选 
TÉ qq? € F^ ,请 求 x(q1) alq) M alq Ha) FRE lq) Halq) = nlg tHg) WE rE 
线性 的 , 则 总 能 通过 测试 ;然而 如 果 V kin AEWA x at AE 0-36 N R VERS , DA fE LA AE 
率 6 被 捕捉 到 中。 因此 ,如 果 证 明 是 远离 线性 的 , 则 VV 很 可 能 捕捉 到 它 是 远离 线性 的 ; 
然而 如 果 证 明 是 全 接近 某 一 线性 元 , 则 可 能 不 请 求 任何 询问 ,元 和 元 不 一 致 。 特 别 地 , 因 
为 假定 V 是 光滑 的 并 用 /1 表示 V 所 做 的 询问 数量 ,所 以 除了 一 个 概率 OU 外 ,新 的 ”只 请 求 
询问 g ,这 里 元 (g) 与 线性 元 (9) 的 回答 相同 。 因 此 ,通过 V 关于 一 个 线性 元 的 合理 性 可 得 出 
所 期 望 的 合理 性 。 

3) 线性 MIP 的 构造 

假定 给 定 了 一 个 线性 PCP 协议 和 一 个 请 求 /个 询问 的 验证 者 V' ,可 按 如 下 流程 构造 一 
个 关于 验证 者 V" 和 十 1 个 证 明 者 的 线性 MIP 协议 。 验 证 者 VR V JEFE EE fH "发送 
2 个 询问 中 的 每 一 个 给 一 个 不 同 的 证 明 者 。 另 外 , 愉 随 机 选择 二 个 询问 中 的 一 个 并 用 这 个 
询问 请 求证 明 者 1 十 1。 如 果 来 自 最 后 一 个 证 明 者 的 回答 与 前 面 的 回答 都 是 一 致 的 ,而 且 
V' 关 于 这 些 回 答 是 接受 的 , 则 接受 。 这 样 构造 的 线性 MIP 协议 的 完全 性 是 平凡 的 ,下 面 
讨论 其 合理 性 。 不 失 一 般 性 ,假定 证 明 者 是 确定 的 ,因此 ,由 证 明 者 Pr+ 关 于 每 个 询问 q HE 
供 的 回答 定义 一 个 证 明 元 ,这 里 元 (q) 是 对 询问 q 的 回答 。 基 本 观点 是 ,每 当前 /个 证 明 者 的 
回答 与 这 个 元 的 回答 一 致 时 ,他 们 的 欺骗 概率 的 上 界 是 线性 PCP 关于 证 明 元 的 合理 性 。 另 
外 ,每 当 至 少 回答 中 的 一 个 与 元 不 一 致 .这 将 至 少 以 1/ 的 概率 被 捕捉 到 。 

为 了 改进 合理 性 概率 到 2“, 可 使 用 另外 的 证 明 者 ,可 以 通过 简单 独立 地 重复 上 述 的 
MIP( 此 时 需要 O(c) 个 证 明 者 ) 的 方法 实现 ,或 者 通过 更 有 效 的 技术 实现 5 。 


2. 具有 线性 解 开 承诺 的 承诺 方案 
一 个 具有 线性 解 开 承 诺 的 承诺 (commitment with linear decommitment) 是 一 个 由 发 送 
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者 S 和 接收 者 R 组 成 的 两 方 协议 。 该 协议 由 承诺 和 解 开 承诺 两 个 阶段 组 成 。 在 承诺 阶段 ， 
S 有 输入 deE Fx" 表示 一 个 线性 函数 fa: FU FRU f£ (@ d.a 的 内 积 , 即 fa) — (d. 
9)。R 没有 输入 ,两 方 相互 交互 但 没有 输出 ,R 可 能 保存 一 些 用 于 下 一 个 阶段 的 解 开 承诺 信 
息 。 在 解 开 承 诺 阶段 ,R 有 输入 gq( 一 个 解 开 承诺 询问 ) 和 解 开 承诺 信息 ,这 一 阶段 结束 后 ,R 
要 么 拒绝 要 么 输出 一 个 值 a。 如 果 两 方 都 诚实 ,R 的 输出 满足 4a 二 fa(g)。 另 外 ,该 协议 满足 
一 个 计算 上 “ 绑 定 ”的 特性 。 粗 略 地 讲 , 对 任何 有 效 的 敌意 的 发 送 者 ,有 下 列 条 件 成 立 : YER 


诺 阶段 后 ,存在 一 个 函数 广 (可 能 不 同 于 fa 并 且 可 能 是 非 线性 的 ) 使 得 对 任何 解 开 承 诺 询问 


gq, 接 收 者 或 者 输出 f(g) 或 者 拒绝 (除了 一 个 可 忽略 的 概率 )。 

更 形式 化 地 ,发 送 者 和 接收 者 可 通过 一 对 交互 PPT 算法 (S,R) 来 定义 。S 和 R 在 协议 
的 两 个 阶段 都 使 用 独立 的 随机 输入 。 为 了 简化 下 列 定义 及 其 扩展 的 使 用 量 ,把 两 个 阶段 的 
输入 视 作 是 由 一 个 环境 5 产生 的 ,8 对 给 定 的 n 可 产生 任意 的 输入 4 ,gE F"。 注 意 到 《没有 
访问 协议 的 副本 ,因此 , 它 产生 的 解 开 承诺 询问 gq 独立 于 S ALR 的 随机 输入 。S AIR 关于 
环境 5 对 长 度 参 数 n 的 交互 定义 为 下 列 两 阶段 游戏 或 实验 。 

游戏 4-2 

CD 承诺 阶段 。5 给 S HAF Ald EF, HA R fü A n 和 下 ,这 些 输 入 连同 S 和 R 的 随机 
输入 ,确定 SAR 之 间 的 一 个 交互 ,交互 结束 时 S 和 R 在 本 地 分 别 保存 一 个 用 于 下 一 个 阶 
段 的 解 开 承诺 信息 串 xs 和 xR。 

(2) 解 开 承诺 阶段 。5 给 尺 一 个 解 开 承诺 询问 goE F" ,这 个 输入 连同 xs zs 以 及 S FIR 
的 随机 输入 (独立 于 第 一 个 阶段 的 随机 输入 ) ,确定 S ALR 的 进一步 交互 ,在 交互 结束 时 R 
或 者 输出 一 个 值 GE 下, 或 者 输出 符号 上 (“ 拒 绝 ”) 。 

现在 使 用 游戏 4-2 给 出 如 下 定义 。 

定义 4-22( 具 有 线性 解 开 承诺 的 承诺 ) ”一 个 具有 线性 解 开 承诺 的 承诺 被 定义 为 一 对 
PPT 算法 (S,R) ,其 游戏 4-2 满足 下 列 要 求 : 

CD 正确 性 。 对 任何 和 由 环境 8 产生 的 d,g€ F" ,在 解 开 承 诺 阶 段 结束 时 ,接收 者 的 
输出 是 a= fu(g)=(d,q)。 

(2) 绑 定 性 。 对 任何 环境 5 和 有 效 的 (但 可 能 是 非 均匀 的 ) 敌 意 发 送 者 S” ,定义 下 列 修 
改 的 游戏 : 除了 S* 充当 S 的 角色 外 , 像 游 戏 4-2 一 样 运行 承诺 阶段 :现在 要 求 尺 和 5S "运行 
解 开 承 诺 阶 段 两 次 ,两 次 使 用 相同 的 输入 xs 、zk 和 4g, 但 随机 输入 是 独立 选择 的 。 如 果 尺 在 
两 次 请 求 中 输出 的 两 个 不 同 的 值 a ,a 满足 a ca’ EF, 就 说 S^ 赢得 了 游戏 ,如 果 对 每 一 个 环 
境 5 和 有 效 的 S* ,S* 赢得 游戏 的 概率 关于 是 可 忽略 的 (这 里 的 概率 是 在 承诺 阶段 的 随机 
输入 和 解 开 承诺 阶段 的 随机 输入 的 两 次 独立 的 选择 上 ) ,就 说 协议 是 绑 定 的 。 

上 述 定义 与 标准 的 密码 学 承诺 方案 相 比 ,没有 明确 要 求 “隐藏 > 特性 。 唯 一 的 理由 是 为 
了 降低 通信 复杂 度 ,发 送 者 避免 发 送 本 身 。 然 而 ,很 容易 对 实现 进行 修改 使 它 能 够 达到 
KF d 是 (统计 ) 隐 藏 的 这 一 要 求 。 

最 后 ,说 明 上 述 绑 定性 概念 暗含 着 如 下 的 更 直观 的 特性 : 对 每 一 个 有 效 的 欺骗 发 送 者 
S* ,存在 一 个 (可 能 不 是 有 效 的) 抽取 器 (extractor)Ext, 给 定 S* AR 在 承诺 阶段 的 观察 , 抽 
取 (extract) 一 个 函数 广 :F"-~>F,S 可 有 效 地 被 承诺 。 

引 理 4-3. 设 (S,R) 是 一 个 具有 线性 解 开 承诺 的 承诺 协议 , 则 对 每 一 个 有 效 的 S” ,存在 
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一 个 函数 Ext 使 得 下 列 条 件 成 立 : 对 任何 环境 5,R 在 解 开 承诺 阶段 结束 时 的 输出 可 被 保 


证 ,其 输出 或 者 是 f(g) 一 Ext(vs* ,ogg) 或 者 是 | (除了 一 个 关于 的 可 忽略 的 概率 ) ,这 里 
us" .vr FAE S'A R 在 承诺 阶段 的 观察 ,g 是 由 5 产生 的 解 开 承诺 询问 ,这 个 概率 是 在 
S 和 RR 的 两 个 阶段 的 随机 输入 上 。 

WEBB: 对 任何 aEF 和 在 承诺 阶段 的 可 能 的 观察 v= lus u), S A,(g,a) 表 示 尺 输出 a 


的 概率 (这 个 概率 是 在 解 开 承 诺 阶段 的 随机 性 上 )。 给 定 一 个 观察 w, 定 义 广 (q) 一 Ext(u,d) 是 
使 得 A,(g,a) 最 大 的 一 个 域 元素 a。 用 反 证 法 。 假 定 Ext 不 能 满足 这 个 要 求 , 则 存在 一 个 
环境 5 对 每 一 个 nn 产生 输入 d,g€ 8") 一 个 多 项 式 p(，。) 和 无 穷 多 个 ,下 列 事实 成 立 : 在 
承诺 阶段 的 随机 性 (确定 观察 w) 上 的 概率 至 少 为 1/p(z) ,有 >) AG 宇 1/p(m), 这 


aERT 0) 


里 g 是 由 8 产生 的 询问 。 可 以 把 下 划分 成 两 个 集合 ,在 每 个 集合 上 发 生 的 概率 至 少 为 1/3p(n)。 
情况 1: A,(g, 了 (gq)) 宇 1/3p(m) ,在 这 种 情况 下 ,FF 的 划分 为 (f (D ,F\f (qd) 


情况 2: A (Gr f (DO —1/3p Cn) ,在 这 种 情况 下 ,所 有 的 概率 都 小 于 1/3p(m) ,但 概率 和 
至 少 是 1/p(n) ,也 隐 含 表明 期 望 的 划分 是 存在 的 。 

因此 得 出 以 下 结论 : 在 定义 4-22 的 绑 定 游戏 中 ,S* 赢得 游戏 的 概率 是 不 可 忽略 的 。 

下 面 介绍 具体 的 具有 线性 解 开 承诺 的 承诺 方案 。 

协议 4-7 基本 的 具有 线性 解 开 承诺 的 承诺 。 

第 一 阶段 : 承诺 阶段 。 

构建 加 密 模块 : 一 个 有 限 域 F 8 f] AS DIL 87; € E = (KeyGen, Encrypt, Decrypt, 
Evaluate) , 

发 送 者 的 输入 : 一 个 向 量 dE F" ,定义 一 个 线性 函数 fai F" > FF, faq) = (D. 

接收 者 的 输入 : 长 度 参数 "计算 上 安全 的 参数 &。 

(1) R 产生 公 和 钥 和 私 钥 (pk, sk) < KeyGen (14) ,产生 一 个 随机 向 量 rERF" 并 使 用 
Encrypt 加 密 ,将 Encrypt( pk. r) = CEncrypt pk. ri) . Encrypt (pk, rz), +++. Encrypt (pk, 
r,) JEE] pk 发 送 给 S. 

(2) S 使 用 E 的 同 态 性 计算 ee 一 Encrypt(pk, fa(r)) (无 须知 道 7) 并 将 e BIKA RR 解 
密 消息 e, 令 s<Decrypt(sk.e) ,为 解 开 承诺 保存 > 连同 向 量 r。 

第 二 阶段 : 解 开 承 诺 阶段 。 

发 送 者 的 输入 : 和 第 一 阶段 一 样 ,dE€ F"。 

接收 者 的 输入 : 解 开 承诺 询问 q€ F , 解 开 承诺 信息 rEF",sEF。 

CD 及 选择 一 个 秘密 <ERF 并 将 对 (q,r 十 ad) 发 送 给 S。 

(2) S 用 一 个 对 (a 40 — CfíGD ,fa(r 十 aq)) 回 答 。R 验证 6 二 :十 aa, 如 果 是 这 样 ,R 输 
出 a ,否则 ,R 拒绝 ( 即 输出 |)。 

如 果 两 方 都 诚实 地 执行 协议 , 则 在 承诺 阶段 的 第 (2) 步 接收 者 获得 的 :满足 s = far). 
利用 fa 的 线性 性 ,有 0 二 fa(r 十 aq) 二 fa(r) 十 a* fua(g) 二 s 十 aa。 这 样 ,验证 成 功 且 接收 者 
输出 a 二 fa(g), 因 此 ,协议 4-7 满足 正确 性 。 

如 果 假 定 同 态 加 密 方 案 EE 是 语义 安全 的 , 则 可 证 明 协 议 4-7 也 满足 绑 定 特性 。 详 细 证 
明 可 参阅 文献 [46]。 
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协议 4-7 的 通信 复杂 度 如 下 : 从 接收 者 到 发 送 者 的 消息 (两 个 阶段 ) 由 O(Cz) 个 加 密 域 
元 素 构成 ,来 自发 送 者 的 通信 仅 包 括 O(1) 个 加 密 元 素 。 

可 将 上 述 协议 扩展 到 更 一 般 的 情况 ,使 其 支持 多 重 ( 并 行 ) 承 诺 和 线性 解 开 承诺 。 特 别 
地 ,发 送 者 有 /个 线性 函数 , 像 前 面 一 样 由 向 量 d' id^. ad! CF" 表示 ,接收 者 有 /个 询问 
gq ,gq ，… ,gq EF"。 对 每 个 询问 qi ,接收 者 将 得 到 回答 fa (gq') 二 (qi,d')EF。 协 议 将 满足 与 
协议 4-7 一 样 的 特性 ,询问 的 每 个 序列 确定 一 个 唯一 的 回答 者 。 要 求 对 每 个 询问 q 的 回答 
仅 依赖 于 该 询问 ,不 依赖 于 其 他 /一 1 个 询问 。 

可 以 将 定义 4-22 的 绑 定 特性 扩展 到 一 般 的 情况 。 在 承诺 阶段 ,环境 5 给 发 送 者 7 个 线 
性 函数 ,由 向 量 d'd’, +e, d’ € F" 确定 ;在 解 开 承诺 阶段 ,环境 & 给 接收 者 1 个 询问 o 
Poog EF"。 在 用 于 定义 顷 定 特 性 的 修改 的 游戏 中 ,环境 & 在 解 开 承 诺 阶 段 的 两 次 独立 
的 请 求 中 给 R 两 个 (可 能 不 同 的 )! SERRE Q — q og? og AM Qm QI qon. HA. 
ACF 表示 两 个 /1 重 回 答 。 如 果 对 某 一 :有 g' 一 9' MBa Ai a'a EFRA S 赢得 游戏 。 
如 果 对 每 个 8 和 有 效 的 S”,S* 赢得 游戏 的 概率 关于 n 是 可 忽略 的 ,就 说 协议 是 绑 定 的 。 

下 面 详细 描述 这 个 一 般 化 的 协议 ,该 协议 可 视 作 并 行 应 用 /次 协议 4-7 所 得 。 该 协议 
的 正确 性 和 绑 定 特性 的 证 明 类 似 于 协议 4-7。 该 协议 的 通信 复杂 度 如 下 : 从 接收 者 R 到 发 
送 者 S 的 消息 (两 个 阶段 ) 由 O(C2z) 个 加 密 域 元 素 构成 ,来 自发 送 者 S 的 通信 仅 包 括 OCD + 
加 密 元 素 。 

协议 4-8 并 行 的 具有 线性 解 开 承 诺 的 承诺 。 

第 一 阶段 : 承诺 阶段 。 

构建 加 密 模块 : 一 个 有 限 域 下 上 的 同 态 加 密 方案 E= (KeyGen, Encrypt, Decrypt, 
Evaluate) 。 

发 送 者 的 输入 : /个 向 量 d ,dq ,…,d'E 8F, 定 义 1 个 线性 函数 fo POF HP fé (OD = 
(q.d), 

接收 者 的 输入 : KESK ,承诺 数目 1, 安 全 参数 。 

CD R 产生 公 和 钥 和 私 钥 (pk ,sk)<-KeyGen(1*) ,产生 7 个 随机 向 量 疡 or? oe or ERP" IF 
使 用 Encrypt 加 密 r'r’. r ,将 Encrypt(pk.r’).Encrypt(pk.r’) +, EnceryptC pk. 723€ 
同 pk 发 送 给 S. 

(2) S 使 用 E 的 同 态 性 计算 e Encrypt(pk. fa (r')) ,i 二 1,2,…,L( 无 须知 道 r') 并 将 
ee env AREIS ROBERT iR 解密 消息 e', 邻 si<Decrypt(sk.e') ,为 解 开 承诺 保存 sí YE 
同 向 量 ri. 

第 二 阶段 : 解 开 承 诺 阶 段 。 

发 送 者 的 输入 : 和 第 一 阶段 一 样 ,! Aa d sd’ ead EF". 

接收 者 的 输入 : /个 询问 gq! ,gq?,… ,gq'€ F , 解 开 承诺 信息 天 EF EF,i==1,2,*…,l。 

CD R 随机 选择 7 AL a! © pF ,i 二 1,2,…,l, 并 将 /个 向 量 对 (gi ,ri 十 aig') 发 送 给 So 

(2) SHINA b= Cfa GD ,fi Gi Faq D a DEF 回答 。R 对 每 个 i 验证 六 一 
s 二 ao ,如 果 是 这 样 ,R fi Ca! a^ oa!) AMR 拒绝 ( 即 输出 上 )。 

类 似 于 基本 承诺 的 情况 ,并行 承诺 的 绑 定 的 定义 暗含 着 如 下 的 更 直观 的 特性 : 对 每 一 
个 有 效 的 欺骗 发 送 者 S^ ,存在 一 个 (可 能 不 是 有 效 的 ) 抽 取 器 Ext, 给 定 S* AR 在 承诺 阶段 


的 观察 ,抽取 一 个 1 重 函数 ;Fr" 一 FF,S* 可 有 效 地 被 承诺 。 引 理 4-4 是 引 理 4-3 的 一 个 
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扩展 。 

引 理 4-4. 设 (S,R) 是 一 个 具有 线性 解 开 承诺 的 多 重 承诺 协议 , 则 对 每 一 个 有 效 的 S*， 
存在 一 个 函数 Ext 使 得 下 列 条 件 成 立 : 对 任何 环境 5,R 在 解 开 承诺 阶段 结束 时 的 输出 或 者 
RLRE aS FD SEx vs Veg’) ,i 二 1,2,…,1( 除 了 一 个 可 忽略 的 概率 neg(n))， 
这 里 vs .ve 分 别 是 S* 入 在 承诺 阶段 的 观察 ,(g' og? ,…:, 9 是 由 5 产生 的 解 开 承 诺 询 
问 , 这 个 概率 是 在 S* AR 的 两 个 阶段 的 随机 输入 上 。 

TEAR: 给 定 q' 和 观察 ,让 Ext(i,v,q) 任 意 地 选择 /一 1 个 剩余 的 询问 q; 并 且 输 出 一 
个 属于 下 的 值 ,该 值 是 R 的 第 i 个 输出 中 最 常 出 现 的 那个 值 。 用 反 证 法 ,假定 某 一 ! 重 询问 
有 a 作为 它 的 第 i 个 元 素 , 但 产生 一 个 不 同 的 第 i 个 输出 的 概率 是 不 可 忽略 的 。 类 似 于 引 
理 4-3, 这 隐 含 表明 有 两 个 ! 重 询问 在 它们 的 第 i 个 元 素 是 一 致 的 ,但 是 以 不 可 忽略 的 概率 
导致 一 个 不 同 的 第 i 个 输出 ,这 与 推广 的 绑 定 要 求 相 矛盾 。 


3. 基于 线性 MIP 的 有 效 论证 系统 

现在 使 用 前 面 介绍 的 承诺 本 原 , 介 绍 将 任何 一 个 线性 MIP 协议 (CP,V) 转 化 为 一 个 相对 
有 效 的 论证 系统 (P',V") 的 过 程 。 特 别 地 ,假定 给 定 了 一 个 关于 NP 语言 工 的 一 个 -证明 者 
线性 MIP 协议 ,我 们 已 经 知道 ,在 这 样 的 一 个 协议 中 ,P 为 诚实 的 证 明 者 确定 了 / 个 线性 函 
数 x om orn om ORMEA x 和 一 个 NP 证据 w)。 验 证 者 V 关于 输入 z 发 送 给 每 一 个 P， 
一 个 询问 we F 并 得 到 一 个 返回 值 x;(g')E 下 。 基 于 1 个 回答 ,V 或 者 拒绝 或 者 接受 。 如 果 
x€L Ho 是 一 个 合法 的 证 据 , 则 使 用 /个 确定 的 函数 ,V 总 是 接受 的 ;如 果 xz 人 FL, 则 1 个 函 
数 元 ,zis，,… ,zi 的 任何 集合 都 不 能 使 V 以 超过 的 概率 接受 。 

协议 4-9 一 个 关于 工 的 论证 系统 (P',V')。 

输入 : TEL 和 w。 

(1) P 和 人 运行 子 协 议 , 即 协议 4-8 的 承诺 阶段 ,这 里 已 对 通过 MIP 协议 关于 输入 x 
和 w 获得 的 /个 函数 x ,rs e ,x 进行 承诺 ,V 存储 解 开 承诺 信息 以 便 以 后 使 用 。 

(2) V' 本 地 运行 MIP( 其 输入 为 zx, 验证 者 为 V) ,获得 1 个 MIP 询问 oo ER。 

(3) P' 和 V 运行 子 协 议 , 即 协议 4-8 的 解 开 承诺 阶段 ,在 这 里 使 用 q' oq og! 作为 解 
开 承诺 询问 (V“ 也 使 用 在 第 (1) 步 存储 的 解 开 承诺 信息 ) ,在 这 个 子 协 议 中 ,V“ 起 到 了 接收 者 
的 作用 ,或 者 拒绝 或 者 得 到 值 mo) ,xz (Cg?) en Ci) ,此 值 又 可 应 用 于 MIP 的 验证 者 V 
并 据 此 接受 或 者 拒绝 。 

定理 4-8. 假定 (P,V) 是 一 个 有 限 域 F 上 的 合理 性 错误 为 s(z) 的 线性 MIP 协议 , 且 
| FG | =n , 则 协议 4-9 PP VOE DRF L 的 合理 性 错误 为 se (z) 的 论证 协议 ， 
这 里 e (nn) <e(n) +neg(n). 

证 明 :(P’,V' ) 的 完全 性 可 由 基础 的 MIP 协议 C(P,V) 的 完全 性 和 承诺 协议 的 正确 性 直 
接 得 出 。 合 理性 可 巾 (P,V) 的 合理 性 和 承诺 协议 的 绑 定 特性 得 出 (后 者 要 求 |F(Cz) | = 
n"), TENE. BLA x EL. 5l 4-4 定义 的 抽取 器 Ext 确保 在 协议 4-9 的 第 (1) 步 结束 
时 ,有 效 的 证 明 函 数 元 , 雹 ,… ,元 ,使 得 除了 一 个 可 忽略 的 概率 neg(n) 外 ,由 V' 在 协议 4-9 
的 第 (3) 步 获得 的 回答 是 元 (gq!) ,zo(g*),… ,zi(g') (除非 V 在 解 开 承 诺 期 间 拒绝 )。 而 (P， 
VORE PERRA eC) ,所 以 V "接受 的 概率 至 多 是 e(n) 十 neg(n)。 

如 果 MIP 协议 的 /个 证 明 者 中 的 每 一 个 计算 一 个 函数 x;:F" 习 下 , 则 协议 4-9 的 复杂 
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由 从 验证 者 到 证 明 者 的 O(z) 个 加 密 域 元 素 和 从 证 明 者 到 验证 者 的 O(C2) 个 加 密 域 元 素 
组 成 。 


4.2.4 基于 交互 的 可 验证 计算 


文献 [49] 中 研究 了 易 处 理 语言 的 交互 证 明 , 在 此 模型 中 ,诚实 的 证 明 者 是 有 效 的 且 运 行 
时 间 是 多 项 式 的 ,验证 者 是 超 有 效 的 且 运 行 时 间 是 近似 线性 的 。 该 文中 的 最 一 般 的 结果 是 
一 个 关于 任何 可 由 万 均匀 族 布尔 电路 计算 的 语言 的 公开 硬币 交互 证 明 , 这 里 通信 复杂 度 是 
计算 的 深度 的 多 项 式 而 不 是 它 的 尺寸 ;验证 者 的 运行 时 间 关 于 输入 是 线性 的 而 关于 深度 是 
多 项 式 的 ,证 明 者 是 有 效 的 。 

一 个 电路 族 是 s(n)- 空 间 均匀 的 ,如 果 存 在 一 个 图 灵机 关于 输入 1" 运行 空间 为 O(s(n)) 并 
且 输 出 输入 长 度 为 n 的 电路 。 一 个 电路 族 是 L- 均 匀 的 ,如 果 它 是 对 数 空间 均匀 的 。 

定理 4-67 设 工 是 一 个 可 由 一 族 O(logS(Cz))- 空 间 均匀 布尔 电路 计算 的 语言 ,布尔 
电路 的 尺寸 为 SCz) ,深度 为 d G0, WIL 存在 一 个 公开 硬币 交互 证 明 具 有 完美 的 完全 性 , 合 
理性 为 1/2。 这 里 证 明 者 的 运行 时 间 为 poly SG) ,验证 者 的 运行 时 间 为 (2 十 dz))。poly 
(logS(n)) ,运行 空间 为 OClogS G0) ,通信 复杂 度 为 d(n)， poly(logS(n))。 

推论 4-1 设 L 是 一 个 在 L- 均 匀 NC 中 的 语言 , 即 可 由 一 族 OClogn) -空间 均匀 电路 计 
算 的 语言 ,电路 的 尺寸 为 poly G0 ,深度 为 poly(logn)。 则 工 存在 一 个 公开 硬币 交互 证 明 具 
有 完美 的 完全 性 ,合理 性 为 1/2。 这 里 证 明 者 的 运行 时 间 为 poly(n) ,验证 者 的 运行 时 间 为 
n。poly(logn) \ 运 行 空间 为 O(logn) ,通信 复杂 度 为 poly(logn)。 

关于 上 述 定 理 4-6 的 证 明 是 构造 性 的 ,其 证 明 过 于 繁杂 ,这 里 就 不 再 袭 述 , 感 兴趣 的 读 
者 可 参阅 文献 [49] 及 其 最 终 论文 。 

构造 在 定理 4-6 中 的 交互 证 明 为 可 验证 计算 提供 了 一 种 自然 的 解决 方案 。 被 证 明 的 论 
断 是 外 包 或 委托 的 计算 被 正确 地 执行 ,在 交互 证 明 中 的 验证 者 是 用 户 或 委托 方 , 在 交互 证 明 
中 的 证 明 者 是 服务 器 或 被 委托 方 ,服务器 使 得 用 户 相 信 它 正确 地 完成 了 计算 。 





4.3 ”安全 多 方 计算 技术 


安全 多 方 计算 的 目的 是 使 得 多 个 参与 方 能 够 以 一 种 安全 的 方式 正确 执行 分 布 式 计算 任 
务 ,每 个 参与 方 除 了 自己 的 输入 和 输出 以 及 由 其 可 以 推出 的 信息 外 ,得 不 到 任何 额外 信息 。 

功能 函数 是 安全 多 方 计算 中 的 一 个 重要 概念 。 一 个 m 元 功能 函数 是 指 将 m 个 输入 映 
SSB om 个 输出 的 随机 过 程 。 将 m 个 输入 映射 到 m 个 输出 的 函数 是 功能 函数 的 特殊 情形 ， 
也 被 称 为 确定 性 功能 函数 。 可 将 功能 函数 下 看 作 相 应 函数 构成 空间 上 的 随机 变量 ( 即 下 等 
于 了 "的 概率 是 p;), 也 可 认为 功能 函数 下 随机 选择 一 个 串 7 并 且 以 FG(r,zi,… tm EH 
输出 ,其 中 所 是 将 mm 十 1 个 输入 映射 到 nm 个 输出 的 函数 。 

布尔 电路 (boolean circuits) 和 算术 电路 (arithmetic circuits) 是 安全 多 方 计算 研究 中 常 
用 到 的 两 个 基本 概念 。 简 单 地 讲 ,一 个 电路 就 是 由 逻辑 门 组 成 的 一 个 非 循 环 有 向 图 ,每 个 逻 
辑 门 都 有 若干 输入 值 并 产生 一 个 输出 值 , 该 输出 值 有 可 能 作为 输入 值 反馈 到 其 他 逻辑 门 。 
布尔 电路 的 逻辑 门 由 比特 异 或 (XOR) 门 和 与 (AND) 门 组 成 ,算术 电路 的 逻辑 门 由 有 限 域 上 
的 加 法 门 和 乘法 门 组 成 。 
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Yao 给 出 了 第 一 个 安全 两 方 计算 协议 53 ,他 使 用 混淆 电路 (garbled circuits) 技 术 将 计 
算 函 数 表示 为 布尔 电路 ,并 在 半 诚 实 模型 下 提供 计算 安全 性 ,需要 一 个 常数 轮 的 通信 ; 
Goldreich 等 给 出 了 第 一 个 安全 多 方 计 算 协议 呈 ] ,也 是 将 计算 函数 表示 为 布尔 电路 ,并 在 半 
诚实 模型 下 提供 计算 安全 性 ,同时 提出 了 一 个 通用 的 编辑 器 ,可 将 任何 在 半 诚 实 模型 下 安全 
的 协议 转换 成 在 恶意 模型 下 安全 的 协议 ;Ben-Or 和 Chaum 等 "中 分 别 独立 地 提出 了 在 信 
息 论 意义 下 安全 的 安全 多 方 计算 协议 ,该 协议 将 计算 函数 表示 为 算术 电路 。 

大 多 数 安全 地 计算 布尔 电路 的 安全 多 方 计算 协议 是 基于 Yao 的 混淆 电路 技术 ,这 种 技 
术 使 用 了 一 种 称 为 健忘 传输 (OT) 的 密码 学 本 原 。 在 这 方面 的 研究 进展 可 归纳 为 以 下 几 个 
Wiig), 

CD 扩展 安全 模型 。Yao 的 原始 协议 在 恶意 模型 下 是 不 安全 的 ,Lindell 等 "1 使 用 称 为 
切割 选择 (cut and choose) 的 技术 ,提出 了 一 个 在 恶意 模型 下 安全 的 协议 ;Lindell 46057 fig Hi 
了 对 Yao 混淆 电路 采用 切割 选择 技术 来 解决 恶意 参与 方 不 正确 构造 电路 的 问题 ,其 关键 是 
确保 参与 方 输入 一 致 性 以 及 处 理 选择 性 失败 攻击 ;Nielsen 等 [外 提出 的 LEGO 方法 将 切割 
选择 技术 应 用 到 电路 门 的 级 别 , 要 求 电 路 构造 方 将 很 多 电路 门 发 送 给 接收 方 ,打开 其 中 一 部 
分 进行 检测 ,使 所 有 门 被 正确 拼接 以 组 成 正确 电路 ;Frederiksen 等 [中 提 出 了 一 个 新 的 基于 
OT 的 XOR- 同 态 承诺 方案 ,从 而 在 保持 原 有 LEGO 良好 复杂 性 和 统计 安全 性 的 同时 ,获得 
了 安全 性 仅 依赖 于 对 称 基 元 的 MiniLEGO。 

(2) 减少 密 文 尺寸 。Yao 的 原始 协议 的 每 个 门 的 真 值 表 需要 传输 4 个 密 文 ,Naor S 
将 其 减少 到 3 个 ,Pinkas 等 将 其 减少 到 2 个 ;Kolesnikov 等 中 在 随机 预言 (RO) 模 型 下 提 
出 了 free-XOR 技术 使 得 XOR 门 无 需 任何 密 文 ,而 AND 门 仍 需 3 个 密 文 ; Applebaum 
等 65 使 用 联合 RK-KDM 攻击 下 安全 的 对 称 加 密 方案 取代 RO, 并 证 明 这 样 的 对 称 加 密 方 
案 可 以 基于 LPN 假设 构造 ,从 而 在 标准 模型 下 实现 了 free-XOR 方法 ;Kolesnikov 4" 4 
出 了 一 种 方法 使 得 XOR 门 需要 0 一 2 个 密 文 ,AND 门 仅 需 2 个 密 文 ;Zahur 809 4 T — 
种 方法 使 得 XOR 门 无 需 密 文 ,AND 门 仅 需 2 个 密 文 。 

(3) 降低 计算 代价 。Naor SEESI 使 用 2 个 杂凑 值 的 计算 来 降低 计算 开销 ,而 Lindell 
等 中 将 此 降 到 计算 1 个 杂凑 值 ;Shelat 等 习 使 用 一 个 单一 的 分 组 密码 的 计算 来 降低 计算 开 
销 ,Bellare 等 "外 又 做 了 进一步 优化 ;Huang 等 "中 通过 流水 作业 思路 降低 计算 代价 。 

许多 安全 地 计算 算术 电路 的 安全 多 方 计算 协议 基于 秘密 共享 (secret sharing) 技 术 。 
Ben-Or 4609 pë i fj BGW 协议 是 基于 秘密 共享 技术 的 ,在 两 两 通信 信道 是 安全 的 假设 下 ， 
这 个 协议 提供 了 信息 论 意义 下 的 半 诚 实 安全 性 ,至 多 可 抵抗 1/2 个 参与 方 被 腐化 (也 称 被 攻 
陷 ),BGW 协议 也 可 提供 恶意 安全 性 ,但 至 多 可 抵抗 1/3 个 参与 方 被 腐化 ;Rabin 和 Beaver 
等 5 中 对 BGW 协议 进行 了 改进 ,在 参与 方 之 间 有 一 个 广播 信道 的 假设 下 ,可 提供 恶意 安全 
性 ,至 多 可 抵抗 1/2 个 参与 方 被 腐化 ;Bendlin 和 Damgard 等 "中 实现 了 恶意 安全 性 ,至 多 
可 抵抗 除了 一 个 参与 方 外 其 他 参与 方 全 被 腐化 ,如 果 使 用 一 个 包含 昂贵 的 公 钥 操作 的 预 处 
理 离线 阶段 , 则 协议 是 计算 安全 的 ,如 果 采 用 一 个 有 效 的 在 线 阶段 , 则 协议 是 信息 论 意义 下 
安全 的 。 

目前 已 有 一 些 安全 多 方 计算 编辑 器 和 程序 框架 实现 和 优化 方面 的 研究 工作 。 在 安全 两 
方 计算 方面 ,Fairlay 是 使 用 混淆 电路 技术 的 安全 两 方 计算 的 第 一 个 编辑 器 " TASTY 组 
合 使 用 了 混 清 电路 技术 和 同 态 加 密 技术 ,对 混淆 电路 的 一 些 优 化 技术 可 参阅 文献 [73] 和 
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[80-85]; 其 他 的 一 些 实现 技术 可 参阅 文献 [86-88]。 在 安全 多 方 计算 方面 ,FairlayMP 是 
Fairlay 在 多 方 情况 下 的 一 个 扩展 ,Cohen 等 "中 在 RO 模型 下 扩展 了 OT 协议 ,大 大 提高 
了 效率 ;Asharov 等 中 通过 算法 优化 和 协议 优化 ,得 到 了 具有 更 低 通 信和 计算 复杂 度 、 更 强 
可 扩展 性 的 OT 扩展 协议 ,并 提出 了 两 个 特殊 设计 的 分 别 适用 于 Yao 协议 和 GMW 协议 的 
OT 扩展 协议 ;其 他 的 一 些 实现 技术 可 参阅 文献 [88,92-96]。 

不 同 模型 下 安全 多 方 计算 协议 的 研究 仍 是 当前 关注 的 中 心 问 题 之 一 ,下 面 简要 总 结 一 
下 近 几 年 的 相关 研究 进展 "1] 。 

CD 通用 可 组 合 (UC, 也 译 成 普 适 复合 ) 模 型 下 的 安全 多 方 计算 协议 的 设计 更 为 困难 。 
Canetti 证 明了 只 有 在 诚实 参与 方 严格 多 于 半数 的 情况 下 ,任意 功能 函数 都 存在 UC 安全 的 
协议 ;Katz 利用 抗 干扰 硬件 来 实现 UC 安全 的 多 方 计 算 ;Goyal 等 人 给 出 了 进一步 的 改进 和 
变化 67 ;Brzuska 等 人 利用 物理 不 可 克隆 函数 PUF 的 不 可 预测 性 和 不 可 克隆 性 ,实现 了 无 
条 件 UC 安全 的 健忘 传输 .比特 承诺 和 密 钥 协商 [9 。 为 了 考虑 更 加 现实 的 攻击 ,Ostrovsky 
等 人 研究 了 恶意 PUF 模型 下 的 UC 安全 多 方 计 算 并 给 出 了 肯定 结论 5 ;Damgard 等 人 基 
于 恶意 PUF 和 无 状态 抗 干扰 硬件 分 别 构造 了 两 个 理想 直线 型 可 抽取 承诺 方案 0"" ,获得 了 
第 一 个 恶意 PUF 下 和 无 状态 硬件 下 无 条 件 UC 安全 的 承诺 方案 ;Prabhakaran 等 将 传统 的 
UC 模型 扩展 为 一 般 化 的 环境 安全 (T-ES) 模 型 ,Canetti 等 首次 基于 多 项 式 假设 ,在 朴素 模 
型 下 构造 了 D-ES 安全 的 多 方 计算 协议 Po 。 

(2) 关于 并 发 自 组 合 模型 下 安全 多 方 计 算 协 议 存在 性 的 结论 正面 和 负面 的 都 存在 。 
Lindell 在 STOC2003 上 、Pass 等 在 FOCS2013 上 分 别 证 明了 任意 函数 都 可 以 在 mw- 界 并 发 
自 组 合 模型 下 被 安全 计算 ,同时 Lindell 还 证 明了 存在 大 量 的 功能 函数 不 能 在 并 发 自 组 合 模 
型 下 被 安全 计算 ,并 给 出 了 mm- 界 并 发 自 组 合 模型 下 协议 通信 复杂 度 的 下 界 ;Garg 等 在 “ 单 
输入 ”背景 下 证 明了 很 多 函数 可 以 在 并 发 自 组 合 模 型 下 被 安全 计算 ,但 伪 随 机 函数 则 不 
470") ; Agrawal 和 Garg 等 93" 中 分 别 证 明了 即使 所 有 协议 会 话 中 诚实 参与 方 的 输入 提前 
确定 ,本 质 上 所 有 非 平 凡 两 方 函 数 的 并 发 自 组 合 也 是 不 可 能 的 。 为 了 绕 过 朴素 模型 下 并 发 
自 组 合 的 众多 否定 结论 ,人 们 将 多 方 计算 的 标准 安全 性 定义 放宽 ,得 到 了 许多 肯定 结论 ,如 
Garg 等 关于 超 多 项 式 模拟 、 输 入 不 可 区 分 的 结论 2 ,Goyal 等 关于 多 重 理想 查询 模型 的 
diem, 

(3) 抗 泄露 的 安全 多 方 计算 是 在 标准 安全 多 方 计算 的 基础 之 上 ,允许 敌手 拥有 关于 诚 
实 参 与 方 秘密 状态 的 泄露 信息 ,在 计算 完成 后 敌手 除了 得 到 被 腐化 方 的 输入 和 函数 输出 之 
外 ,得 不 到 其 他 任何 信息 。 在 半 诚 实 模型 下 ,Damgard 等 针对 NC 函数 给 出 了 一 般 化 的 抗 汇 
露 安全 两 方 计算 协议 "5 ;Bitansky 等 构造 了 在 UC 框架 下 安全 的 一 般 化 的 抗 泄露 多 方 计算 
HAXE ; Bitansky 等 给 出 了 在 半 诚 实 敌 手 模型 下 安全 计算 各 种 功能 函数 的 协议 0 中 ,如 安 
全 信息 传输 .OT、 承 诺 等 ,并 在 UC 框架 下 设计 了 零 知识 协议 ;Boyle 等 给 出 了 一 个 在 标准 安 
全 模型 下 安全 的 抗 连续 内 存 汇 露 多 方 计算 协议 。 

(4) Bendlin 等 22 在 预 处 理 模型 下 ,给 出 了 非 诚 实 方 占 大 多 数 的 无 条 件 UC 安全 的 高 
效 计算 算术 电路 的 协议 ;Damgard 等 中 在 保持 Bendlin 原 有 结论 的 同时 ,将 在 线 阶 段 的 计 
算 和 通信 复杂 度 降 为 参与 方 数 目的 线性 关系 ;Damgard 等 5 提出 了 新 的 同 态 认 证 方案 和 
验证 布尔 矩阵 乘积 的 算法 ,对 具有 大 量 参与 方 参与 的 布尔 电路 计算 ,在 预 处 理 模型 下 给 出 了 
各 参与 方 的 计算 代价 与 直接 计算 该 电路 代价 相同 的 协议 。 
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关于 安全 多 方 计算 的 公平 性 、 量 子安 全 多 方 计算 以 及 一 些 特殊 敌手 模型 下 的 安全 多 方 
计算 的 研究 这 里 没有 提 及 , 感 兴趣 的 读者 可 参阅 文献 [39,41]。 

一 般 地 ,可 将 安全 协议 视 作 是 将 m 个 输入 映射 为 m 个 输出 的 随机 过 程 。 安 全 多 方 计算 
的 定义 方式 可 以 回溯 到 零 知 识 证 明和 语义 安全 的 定义 方式 , 即 称 一 个 协议 是 安全 的 ,如 果 敌 
手 攻击 实际 协议 所 得 与 攻击 理想 模型 所 得 相当 。 此 处 理想 模型 是 指 存 在 一 个 所 有 参与 方 共 
同 信任 的 可 信 方 ,在 可 信 方 的 帮助 下 计算 出 协议 的 功能 函数 。 具 体 执行 过 程 如 下 : 每 个 参 
与 方 将 自己 的 输入 传输 给 可 信 方 ,可 信 方 计算 功能 函数 ,将 计算 结果 返回 给 相应 的 参与 方 。 
易 见 ,理想 模型 是 平凡 的 安全 协议 ,那么 敌手 攻击 实际 协议 所 得 与 攻击 理想 模型 所 得 相当 ， 
而 理想 模型 是 平凡 的 安全 协议 ,攻击 这 样 的 平凡 协议 无 所 得 ,从 而 攻击 实际 协议 也 无 所 得 ， 
这 样 原来 的 协议 就 是 安全 的 。 

下 面 先 介绍 定义 经 典 安全 多 方 计算 安全 模型 时 需要 考虑 的 一 些 因 素 C9 。 

(1) 初始 假设 。 除 非特 别 声明 ,本 节 没 有 初始 假设 。 只 有 在 特定 情况 下 假设 每 个 参与 
方 持 有 其 他 参与 方 的 某 些 信息 ,例如 公 钥 等 。 

(2) 通信 信道 。 本 节 中 关于 信道 的 标准 假设 是 敌手 可 以 搭 线 窃听 所 有 的 通信 信道 。 

(3) 计算 能 力 。 如 无 特别 声明 ,本 节 讨 论 计算 能 力 有 界 即 概率 多 项 式 时 间 (PPT) 敌 手 。 

(4) 敌手 攻击 能 力 。 敌 手 可 分 为 自 适应 和 非 自 适应 两 种 。 自 适应 敌手 在 协议 执行 过 程 
中 ,根据 当前 收集 到 的 信息 决定 入 侵 哪 个 参与 方 ; 非 自 适应 敌手 在 协议 执行 之 前 就 确定 好 要 
入 侵 的 参与 方 集合 。 显 然 , 自 适应 是 比 非 自 适应 更 为 一 般 的 攻击 模型 。 另 外 ,根据 敌手 控制 
参与 方 的 方式 ,可 将 敌手 分 成 恶意 和 半 诚 实 两 种 。 恶 意 敌 手 不 遵守 协议 指令 , 半 诚 实 敌 手 遵 
守 协 议 指令 ,只 是 尽量 收集 并 记录 信息 。 

(5) 安全 性 定义 的 限制 。 本 节 讨 论 的 协议 是 “不 公平 ?的 , 即 不 诚实 方 可 以 中 断 协 议 执 
行 , 这 样 某 些 诚实 方 得 不 到 期 望 的 输出 ,但 是 可 以 探测 出 协议 被 不 诚实 方 中 断 。 称 这 种 安全 
性 为 允许 中 止 的 安全 性 。 

(6) 不 诚实 参与 方 个 数 的 上 界 。 在 某 些 情况 下 ,只 有 诚实 参与 方 占 严格 多 数 时 ,安全 多 
方 计算 才 可 能 实现 。 

本 节 考 虑 如 下 的 协议 运行 环境 , 即 安全 模型 : 敌手 可 以 搭 线 窃听 所 有 的 通信 信道 ,敌手 
攻击 能 力 是 非 自 适应 的 、 恶 意 的 ,并 且 是 计算 有 界 的 。 

本 节 主 要 介绍 安全 多 方 计算 的 基本 概念 ,基本 思想 和 基本 定理 ,主要 取材 于 文献 [114， 
1151. 


4.3.1 安全 两 方 计算 


安全 两 方 计 算是 安全 多 方 计算 的 一 类 重要 的 特殊 形式 。 本 节 主 要 介绍 安全 两 方 计算 的 
基本 概念 和 基本 定理 。 

l. 半 诚 实 模型 中 的 安全 两 方 计算 

半 诚 实 模型 是 指 参与 协议 的 双方 中 有 一 方 是 敌手 , 另 一 方 是 诚实 方 。 此 处 的 敌手 只 能 
施行 半 诚 实 攻击 , 即 完全 遵守 协议 的 指令 ,只 不 过 会 记录 协议 运行 中 的 信息 和 计算 结果 。 

这 里 先 给 出 半 诚 实 模型 中 的 两 个 等 价 的 安全 性 定义 。 第 一 个 是 半 诚 实 模型 特有 的 简单 
方式 ,第 二 个 是 安全 多 方 计算 所 采用 的 一 般 方式 。 这 两 个 定义 方式 都 基于 模拟 的 方法 。 按 
照 第 一 个 定义 方式 定义 的 安全 两 方 计 算 也 称 为 两 方 保密 计算 。 如 果 协 议 关 于 输入 对 (zyy) 
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的 输出 分 布 与 功能 函数 fCz,y) 的 输出 分 布 相等 。 就 称 一 个 两 方 协议 I AED RE RR S o 
注意 此 时 只 考虑 参与 协议 的 双方 都 是 诚实 方 的 情形 ,协议 的 输出 分 布 即 协议 计算 功能 函数 
还 没有 涉及 安全 性 。 
定义 4-23( 两 方 保密 计算 ) 设 f:{0,1)* X (00,1) 10,1) * X (0,1) * 是 一 个 功能 函 
Jb. fi Gr YI fo Gr WANE f(z,y) 的 第 一 个 和 第 二 个 分 量 。 工 是 计算 了 的 两 方 协议 。 
定义 第 一 方 执 行 协议 过 程 中 的 观察 (也 称 视图 ) 为 (zr ,nn «m; s ,m4), 记 为 VIEW3 Gy). 
其 中 表示 第 一 方 的 内 部 毛 币 结果 ,m; 表示 第 一 方 在 协议 执行 过 程 中 收 到 的 第 i 个 消息 。 
同样 地 ,第 二 方 的 观察 为 (y or! m eme ，… ,ns), 记 为 VIEW3 (xz,y)。 第 一 方 执行 协议 耳 之 后 
的 输出 记 为 OUTPUTY(Cz,y) ,第 二 方 的 输出 记 为 OUTPUT8 Ge» y) ,协议 的 整体 输出 记 为 
OUTPUT" (x.y) =(OUTPUT! (x, y), OUTPUTS (zx,y))。 当 功能 函数 f 是 确定 性 函数 
时 , 称 协议 五 保密 计算 ,如果 存 在 PPT 算法 Si 和 S; ,使 得 
{Si(zy 太 (zyy))) seloa。 半 (VIEWECzy)} vetoa， (4-1) 
(Si Cy, fs Cn y) het? = {VIEWS (x,y) }s,ye(0.1)" (4-2) 
为 简便 起 见 , 这 里 假定 |z|==1y| PERRE ARR B P AE EAR TEC AT s 
一 般 地 , 称 协议 IT RAIL Ef ,如 果 存 在 PPT 算法 S, 和 S. ,使 得 
{(CSiCzy 记 (zy))，FCzyy))) ayetin" = (CVIEWI Gc, y) OUTPUT" Gr, y)) ] ase (01) " 
(4-3) 
((S2Cys far 3) s fc y) sete?  UVIEWZG 3), OUTPUT" Gc, y))) se (001° 
(4-4) 
这 里 VIEW! (x.y) VIEWS Ge. y) OUTPUT! Gr. y) fl OUTPUTS Gr, y) Je JH XC HY Bf 
机 变量 ,而 随机 变量 OUTPUT? Gr. 0 fi VIEW8(Cz,y) 完 全 确定 。 证 明 协 议 的 安全 性 时 对 
于 这 些 随机 变量 之 间 相 关 性 保持 的 证 明 至 关 重要 。 
对 于 确定 性 功能 函数 , 式 (4-1) 和 式 (4-2) 说 明 , 每 个 参与 方 的 观察 仅仅 根据 输入 和 输 
出 就 可 以 模拟 出 来 。 因 为 协议 运行 过 程 中 每 个 参与 方 收 到 的 消息 都 包含 在 观察 中 ,这 说 明 ， 
参与 方 通过 协议 交互 所 得 蕴含 于 他 自己 的 输出 当中 ,也 就 是 说 ,协议 的 交互 过 程 (除了 输出 
中 蕴含 的 信息 之 外 ) 没 有 泄露 更 多 的 信息 ,因而 协议 是 安全 的 。 另 外 ,注意 到 式 (4-1) 与 
式 (4-3) 应 用 于 确定 性 函数 时 相同 ,因为 当 功 能 函数 是 确定 性 函数 时 ,对 于 每 个 输入 对 (x， 
DURA OUTPUT! G. 3) — fG 3). 
相对 于 确定 性 函数 ,在 式 (4-3) 和 式 (4-4) 中 ,考虑 协议 计算 随机 功能 函数 时 ,增加 了 
OUTPUT" (xz,y)。 此 时 协议 荆 计 算 的 是 随机 功能 函数 ,等 式 OUTPUT" (x,y) = f Gr y) 
未 必 成 立 , 因 为 等 式 的 两 边 不 再 是 具体 的 数值 ,而 是 两 个 随机 变量 。 实 际 上 ,这 两 个 随机 变 
量 要 求 分 布 相等 ,但 是 分 布 相等 并 不 能 保证 式 (4-1) 能 够 推出 式 (4-3) ,也 就 是 说 ,对 于 随机 
功能 函数 来 说 , 仅 满足 式 (4-1) 不 能 保证 协议 可 保密 计算 功能 函数 。 
下 面 采用 实际 协议 /理想 模型 (也 称 现实 模型 /理想 模型 ) 这 样 的 基本 框架 给 出 半 诚 实 模 
型 中 的 安全 两 方 计 算 的 另 一 种 定义 。 理 想 模 型 由 两 个 参与 方 和 可 信 第 三 方 组 成 ,计算 由 可 
信 第 三 方 完成 。 一 个 协议 关于 某 种 特定 敌手 行为 称 为 是 安全 的 ,如 果 这 种 敌手 攻击 实际 协 
议 所 得 可 以 通过 攻击 相应 的 理想 模型 所 模拟 。 这 里 模拟 的 概念 指 的 是 对 两 个 参与 方 的 联合 
观察 的 模拟 。 
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定义 4-24( 半 诚实 模型 中 的 安全 性 ) 设 f:{0,1) X (00.1) (0:1)* X (0,1) &— 
个 功能 函数 ,有 (rz,y) 和 户 (z,y) 分 别 是 f(z,y) 的 第 一 个 和 第 二 个 分 量 。 I 是 计算 了 的 两 
方 协议 。 令 B=(Bi,B,) 是 一 对 PPT 算法 ,表示 理想 模型 中 两 个 参与 方 采用 的 算法 。B= 
(Bi，,B,) 称 为 可 容许 的 ,如 果 至 少 存在 一 个 B; ,使 得 B;(u,v,z) — v. HP u 表示 B; 的 输入 ， 
v 表示 B, 的 输出 ,> 表示 B: 的 辅助 输入 。 理 想 模 型 中 f KF B= (B, B WKE WITEN 
IDEAL; Bo Gr» y) ,是 如 下 的 三 元 组 : Cf Gn 30 Bi (a, fa (rey) 522 Ba (ys fo (x5 32 220 E 
想 模 型 中 至 少 存在 一 个 诚实 方 ,将 可 信 方 发 送 来 的 输出 直接 作为 输出 )。 令 AT (Al AD) FE 
另 一 对 PPT 算法 ,表示 实际 协议 中 两 个 参与 方 采用 的 算法 。A 二 (Ai ,A;) 称 为 可 容许 的 ,如 
果 至 少 存在 一 个 i, 对 每 一 个 view 和 aux. A A;(view,aux) 二 out, 其 中 out 表示 观察 view 
中 蕴含 的 输出 。 实 际 协议 中 匡 关 于 A 二 (Ai.A;s) 的 联合 执行 记 为 REALnac (x,y) 是 如 下 
WY = 7044 (OUTPUT! (x,y),A1(VIEW?(z,y),z),As(VIEW38 (zx,y),z))。 协 议 工 称 为 在 
半 诚 实 模型 中 安全 计算 功能 函数 f, 如 果 对 于 实际 协议 中 每 对 可 容许 PPT 算 法 A= CA; AD. 
都 存在 理想 模型 中 一 对 可 容许 算法 B= (By Bo ,使 得 

{IDEAL ya Gr 32)... = (REAL A (zy)} yz 

其 中 xz,y,zE {0,1}" ,满足 |zx|=|y| 且 |z|==poly(|x|)。 

可 证 明 上 述 两 个 定义 是 等 价 的 。 


2. 恶意 模型 中 的 安全 两 方 计算 

恶意 模型 是 指 敌 手 的 攻击 行为 是 恶意 的 ,可 以 完全 不 遵守 协议 指令 运行 。 对 于 恶意 敌 
手 , 有 以 下 3 种 情形 无 论 采 用 何 种 协议 都 不 可 避免 : 

(1) 参与 方 拒绝 参与 协议 运行 。 

(2) 参与 方 以 替换 过 的 输入 参与 协议 运行 。 

(3) 参与 方 中 断 协议 运行 。 

既然 上 述 3 种 行为 不 可 避免 ,那么 车 敌手 只 能 施行 这 3 种 攻击 之 一 (其 他 的 攻击 不 能 成 
功 ) 就 可 以 认为 这 样 的 协议 是 安全 的 。 按 照 实际 协议 /理想 模型 的 定义 方式 ,恶意 敌手 的 理 
想 模型 中 要 对 上 述 3 种 行为 做 相应 的 约定 。 

实际 协议 中 不 可 避免 的 上 述 三 种 恶意 行为 ,相应 地 在 理想 模型 中 要 允许 出 现 ,也 就 是 
说 ,即使 有 可 信 第 三 方 存在 ,也 不 能 避免 某 些 恶 意 行 为 的 发 生 。 具 体 地 讲 , 理 想 模型 允许 参 
与 方 不 参与 协议 执行 ,允许 参与 方 替换 输入 ,显然 ,可 信 方 不 能 阻止 这 两 种 行为 。 另 外 ,赋予 
第 一 方 “ 叫 停 ? 可 信 方 的 权利 , 即 第 一 方 收 到 自己 的 输入 之 后 ,在 可 信 方 发 送 输出 给 第 二 方 之 
前 叫 停 可 信 方 ,这 样 ,第 一 方 获得 输出 ,而 第 二 方 没有 得 到 输出 。 

定义 4-25( 恶 意 模型 中 的 安全 性 ) WE f£:(0.1) X (0.1) (0.1) X (0,1) é— b 
功能 函数 ,f(z,y) 和 f(x,y) 分别 是 f(z,y) 的 第 一 个 和 第 二 个 分 量 。 令 B= 二 (Bi,B,) 是 
一 对 PPT 算法 ,表示 理想 模型 中 两 个 参与 方 采用 的 算法 。B 二 (Bi ,B: ) 称 为 可 容许 的 ,如 果 
至 少 存在 一 个 诚实 方 Bi ,使 得 Bi(u.z,7) 二 wu,Bi(u,z,r,v) 二 v, 其 中 表示 B: 的 输入 ,v 表 
m B, 的 输出 ,x 表示 D. 的 辅助 输入 。 理 想 模型 中 f 关于 B=(B,B,) 的 联合 执行 记 为 
IDEAL 5c) (zyy), 如 下 定义 : 

CD 第 一 方 是 诚实 方 , 则 IDEAL ac Gr» 32 H Cfi Gr» y 9 Ba Cy zr» fo n y 0) HP 
y —BiGyz.n. 
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(2) 第 二 方 是 诚实 方 , 则 IDEAL; (vy) 
(By (2,27, yu sy), LL), L) # ByG,zrfG.y»-L 
(Bi Gozir fila’ yy)) falx sy)) SE BiGrizir fila’ sy) AL 
Hp x’ =B, (2,257). 
设 荆 是 计算 了 的 两 方 协议 。 令 A==(Al,As) 是 一 对 PPT 算法 ,表示 实际 协议 中 两 个 参 
与 方 采用 的 算法 。A 二 (A,,A;) 称 为 可 容许 的 ,如 果 至 少 存在 一 个 诚实 方 A;。 实 际 协议 中 
本 关于 A 二 (Ai,A;s) 的 联合 执行 记 为 REALnacw (oy) ,定义 为 根据 A DM A Cy 223€ 
互 产生 的 输出 对 。 
协议 荆 称 为 在 恶意 模型 中 安全 计算 功能 函数 ,如 果 对 于 实际 协议 中 每 对 可 容许 PPT 
算法 A= (Ai,A;), 都 存在 理想 模型 中 一 对 可 容许 算法 B==(Bi,B;), 使 得 {IDEALy.scs Gr. 
Y) bese {REAL Ae (zyy)} vs。 其 中 zyy<E(0,1) W Elz] = |y] H |z| = poly x 
PP 
定义 4-25 蕴含 了 一 些 重要 性 质 ,如 对 于 恶意 敌手 的 保密 性 和 对 于 诚实 参与 方 的 正确 
性 。 其 中 对 于 恶意 敌手 的 保密 性 是 指 敌 手 通 过 与 诚实 方 的 交互 所 得 都 可 以 通过 其 局 部 输出 
推导 得 出 ,这 样 对 恶意 敌手 而 言 , 协 议 的 交互 过 程 并 未 提供 额外 信息 。 对 于 诚实 方 的 正确 性 
是 指 诚实 方 得 到 的 输出 结果 与 其 提供 的 输入 相符 ,而 恶意 敌手 提供 的 输入 与 诚实 方 的 输入 
无 关 。 


4.3.2 两 方 保密 计算 功能 函数 


安全 两 方 计算 的 最 终 目标 是 设计 一 般 性 的 安全 协议 ,使 之 能 够 抵抗 任意 可 行 的 敌手 攻 
击 。 要 完成 这 个 最 终 目标 ,需要 分 成 两 步 来 实施 。 第 一 步 是 设计 对 于 半 诚 实 敌 手 是 安全 的 、 
计算 任意 功能 函数 的 协议 ;第 二 步 是 把 抵抗 半 诚 实 敌 手 的 协议 转化 为 抵抗 恶意 敌手 攻击 的 
协议 。 本 节 比 较 详 细 地 介绍 第 一 步 , 对 第 二 步 只 给 出 最 终结 论 , 没 有 详细 介绍 , 感 兴趣 的 读 
者 可 参阅 文献 [114,115]。 

设计 抵抗 任意 半 诚 实 敌手 攻击 的 协议 的 基本 思路 是 : 首先 将 要 完成 的 理想 功能 函数 表 
示 为 布尔 电路 ,然后 将 这 个 布尔 电路 转化 成 一 个 协议 , 称 为 电路 赋值 协议 。“ 归 约 ” 是 本 节 的 
一 个 中 心 概念 ,将 由 功能 函数 g 到 了 的 归 约 和 保密 计算 函数 了 的 协议 复合 ,可 以 得 到 保密 
计算 函数 g 的 协议 。 这 样 ,可 以 将 保密 计算 一 般 功 能 函数 归 约 为 保密 计算 确定 性 功能 函 
数 。 对 于 每 个 确定 性 功能 函数 ,可 设计 电路 赋值 协议 来 完成 它 , 电 路 赋值 协议 可 以 归 约 为 与 
门 和 异 或 门 的 计算 ,为 记号 方便 ,用 GF(2) 上 的 算术 电路 代替 布尔 电路 ,这 样 ,布尔 电路 的 
与 门 对 应 GF(2) 上 的 乘法 门 , 而 布尔 电路 的 异 或 门 对 应 GF(2) 上 的 加 法 门 。 乘 法 门 的 计算 
可 归 约 为 健忘 传输 协议 。 对 于 任意 功能 函数 ,如 果 存在 安全 的 健忘 传输 协议 , 则 根据 归 约 定 
理 就 能 够 构造 出 计算 该 功能 函数 的 协议 。 

l. 半 诚 实 模型 中 的 复合 定理 

下 面 介绍 归 约 ( 即 保密 归 约 ) 的 概念 以 及 归 约 定理 ( 即 半 诚实 模型 中 的 复合 定理 ) 。 将 保 
密 计算 一 个 功能 函数 归 约 为 保密 计算 另 一 个 功能 函数 ,与 通常 意义 下 的 归 约 概念 基本 类 似 。 
通常 意义 下 的 归 约 是 借助 预言 器 (Oracle) 定 义 的 ,这 里 关于 协议 的 归 约 也 是 利用 了 预言 器 。 
此 时 的 预言 器 被 两 个 参与 方 调用 ,每 个 参与 方向 预言 器 提交 询问 ,预言 器 将 答案 返回 给 相应 
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参与 方 。 

定义 4-26( 保 密 归 约 ) 一 个 预言 器 辅助 协议 称 为 应 用 预言 函数 六 如果 预言 器 按照 函 
数 了 回答 询问 。 即 当 预 言 器 被 调用 ,第 一 方 提交 的 询问 是 qi ,第 二 方 提交 的 询问 是  , 则 预 
言 器 的 回答 是 fsg) 。 一 个 应 用 预言 函数 f 的 预言 器 辅助 协议 称 为 安全 计算 功能 函数 
g ,如 果 存 在 多 项 式 时 间 算 法 S, WIS. 分 别 满足 式 (4-3) 和 式 (4-4)。 一 个 预言 器 辅助 协议 
称 为 保密 归 约 g 到 了 .如果 此 协议 应 用 预言 函数 三 时 安全 计算 功能 函数 g 。 

定理 4-7( 半 诚实 模型 中 的 复合 定理 ) 设 功能 函数 g 保密 归 约 到 了 ,并 且 存 在 协议 保密 
计算 功能 函数 ,那么 存在 一 个 协议 保密 计算 功能 函数 g。 

定理 4-7 的 具体 证 明 过 程 可 参阅 文献 [114]。 

给 定 一 个 一 般 的 功能 函数 g, 利 用 下 面 介绍 的 预言 器 辅助 协议 (协议 4-10) 可 以 将 其 归 
约 到 某 个 确定 性 功能 函数 1。 首先 , 令 g(r,(z,y)) 表 示 选 择 随机 串 r 时 g (zx,y) 的 取 值 。 定 
义 确定 性 功能 函数 fs f(r or) Ge n) = gin Ore Gri 2). 

协议 4-10 ”预言 器 辅助 协议 。 

输入 : 第 一 方 的 输入 是 xz, € {0,1)" ,第 二 方 的 输入 是 r € {0,1}"。 

a) 第 一 方 均匀 选取 随机 串 n € (0,1) MCP ,第 二 方 均匀 选取 随机 串 r € {0， 
1 bab, 

(2) ( 归 约 ) 第 一 方 和 第 二 方 分 别 以 询问 (zi ,rm ) 和 (zs ,rz ) 调 用 预言 器 ,并 且 记录 预言 器 
的 回答 。 

输出 : 每 个 参与 方 将 预言 器 的 回答 作为 输出 。 

易 证 ,协议 4-10 保密 计算 功能 函数 g, 即 协议 4-10 将 功能 函数 g 保密 归 约 到 了 。 

2. 半 诚 实 模型 中 安全 的 健忘 传输 协议 

设 & 是 一 个 固定 的 正 整 数 ,m ,os ,… ,oi E110,1} iE {1,2,…,k)。 健 忘 传输 协议 要 完成 
的 功能 函数 记 为 OTH ,定义 如 下 : OTE (Gi ,oz 0) ,让 二 (4,0;)。 习惯 上 将 第 一 方 称 为 发 
送 方 , 持 有 输入 (oi «os n 0 ,第 二 方 称 为 接收 方 , 持 有 输入 zi。 功能 函数 OTI 要 完成 的 功 
能 或 者 目标 是 将 发 送 方 的 第 i 个 比特 传输 给 接收 方 , 接 收 方 不 能 获知 其 他 位 置 的 比特 , 即 不 
能 获知 oj ,j 隆 i;, 发 送 方 也 不 能 获知 接收 方 要 求 收 到 哪个 位 置 的 比特 , 即 发 送 方 不 能 获知 i。 

定义 4-27( 加 强 陷 门 置 换 族 ) 设 {f,:D, 一 D,) 是 一 个 陷 门 和 置换 族 ,在 其 上 定义 4 个 算 
法 ,分 别 是 指标 算法 I 抽样 算法 DD、 求 值 算 法 和 求 逆 算法 B。 给 定 输入 SEU IER 
族 中 选择 一 个 置换 f. 的 下 标 a 以 及 相应 的 陷 门 ;给 定 输入 a, 算 法 D 从 置换 fL 的 定义 域 中 抽 
样 ,输出 一 个 在 定义 域 中 均匀 分 布 的 zx; 给 定 输入 a 和 zx, 算法 下 返回 f,(x); 给 定 f. 的 值 域 中 
WY y AR Goo ,算法 BB 返回 fo'(y)。 称 一 个 陷 门 置换 族 为 加 强 陷 门 置换 族 ,如 果 对 任意 PPT 
算法 A 任意 正 多 项 式 P 和 所 有 充分 大 的 ,都 有 PrLACn A"), R, = fia» O Cl A), 


Rs 其 中 厂 (1") 表 示 算 法 工 输出 中 的 第 一 个 分 量 , 即 下 标 ,D' 是 D. 的 两 输入 算 


ik dE D BS prn £i RE D hi Bod A HE DEAS D”。 

假设 加 强 陷 门 置换 族 存在 , 则 可 以 设计 保密 计算 健忘 传输 功能 函数 OT? 的 安全 协议 。 
3 fa: Da > D, Jaer Æ D IR MA TT E MJE b 是 这 一 族 陷 门 置换 的 硬 核 谓 词 (hard-core 
predicate) 。 简 单 地 讲 ,一 个 多 项 式 时 间 可 计算 的 谓词 5:{10,1)* 一 {0,1) 被 称 为 函数 f£ 的 硬 
核 谓词 ,如 果 对 每 一 个 有 效 的 算法 ,在 给 定 f(x) 的 情况 下 ,能 以 略 大 于 1/2 的 成 功 概率 猜 中 
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6(Cz)。 在 协议 4-11 的 描述 中 ,将 发 送 方 简 记 为 ,将 接收 方 简 记 为 R。 该 协议 的 安全 性 依 
赖 于 辅助 的 安全 参数 1" BA n 的 不 断 增 大 ,该 协议 的 安全 性 也 不 断 提高 。 我 们 知道 ,协议 
的 安全 性 定义 为 实际 执行 过 程 中 的 观察 与 理想 模型 中 执行 过 程 这 样 两 个 随机 变量 的 计算 不 
可 区 分 性 ,也 就 是 说 , 随 着 n 的 增 大 ,这 两 个 随机 变量 逐渐 接近 。 

协议 4-11 基于 加 强 陷 门 置换 族 的 健忘 传输 协议 。 

输入 : S 的 输入 是 (oa 0:00 € (0.1). R 的 输入 是 i€E {1,2,…,k)},S AR 的 辅助 输 
人 是 安全 参数 1"。 

CD S 均匀 选择 随机 串 ,利用 指标 - 陷 门 对 生成 算法 G, 生 成 一 个 指标 - 陷 门 对 (a,?) = 
G(1",r) ,并 将 指标 a 发送 给 R 。 

(2) R 首先 在 加 强 陷 门 置换 族 { f。:D。 一 D。})。ei 的 定义 域 D。 中 均匀 且 独 立地 选取 随机 
EB ri orasttt ,ri, 调 用 次 定义 域 抽样 算法 ,产生 定义 域 中 的 个 数 , 即 zx 二 D(a,r;), 其 中 
j 二 1,2,…,k; 其 次 计算 yi = fe Geo ,对 于 JES yj 二 zj ;最 后 将 (y yi ARIS S. 

(3) S 收 到 (yi yo s ,yi) 之 后 ,利用 陷 门 :计算 zj 二 fo1(y)),j 二 1,2,…,k, 并 将 (ci， 
co ack) = (or Bb( 21) «o BoC ze) «o, Ob C0 BIKAR. 

(4) R 接收 到 S 在 第 (3) 步 发 送 来 的 消息 (c ,cs en cO ,计算 c Db a) Ff Hi HAR. 

易 知 ,协议 4-11 计算 功能 函数 0T。 命 题 4-1 的 结论 说 明 协 议 4-11 fg ETE SEI BÉ PR 
He OTI ,其 证 明 可 参阅 文献 [114,115]。 

命题 4-1 设 { 廊 :Di 一 Di)} 是 加 强 陷 门 置换 族 ,% 是 此 陷 门 置换 族 的 硬 核 谓词 ,那么 协 
iX 4-11 在 半 诚 实 模型 中 保密 计算 功能 函数 OT? 。 

3. 保密 计算 ci 十 cs 二 (a 十 as)。(bi 十 bs) 

现在 说 明 乘 法 门 (乘法 函数 ) 可 以 归 约 为 功能 函数 OTi 。 乘 法 函数 是 指 两 个 参与 方 计 
FFT FE PHB Cay ,61) Caz be) Cci co) JEP ay Ha: 是 第 一 方 的 输入 ,bi 十 bs 是 第 二 方 的 
输入 ,满足 己 十 cs 二 (qi 十 as)*，(b 十 bs)。 协 议 4-12 将 乘法 功能 函数 保密 归 约 到 功能 函数 
OT} ,注意 ,这 里 为 了 简便 ,讨论 的 都 是 GF(2) 上 的 运算 。 

协议 4-12 计算 乘法 函数 协议 。 

输入 : 第 一 方 输入 是 (a 0:0 € (0.1) ,第 二 方 输入 是 (as b) € (0.1). 

(1) 第 一 方 均匀 选取 c € (0.1). 

(2) 两 方 联合 调用 功能 函数 OT ,第 一 方 以 发 送 方 的 身份 调用 ,第 二 方 以 接收 方 的 身份 调 
用 。 第 一 方 利用 输入 对 (ai «b ) 以 及 第 (1) 步 选 定 的 cy 计算 四 元 组 (((a +0) * (05 +0) 76. 
(Cai +0) * Cs +1) He «CQ D * (5 4-00 Hci), Cai +1) * (+1) 600 , DIE oc 
作为 调用 功能 函数 OT! 的 输入 ;第 二 方 利用 输入 对 (az «0:0 ,计算 1 十 2 +b: € (1.2.3.4) 
作为 调用 功能 函数 OTI 的 输入 。 这 样 在 调用 功能 函数 OTI 结束 后 ,第 一 方 从 功能 函数 
OTi 处 得 到 空 串 4, 第 二 方 得 到 (1 十 2as 十 bs) 位 置 的 运算 结果 , 即 (ay 十 as)， (bi 十 bz) 十 c1。 

输出 : 第 一 方 输出 ci ,第 二 方 输出 从 功能 函数 OTi 处 得 到 的 结果 。 

易 证 明 , 协 议 4-12 计算 乘法 功能 函数 。 另 外 ,关于 两 个 参与 方 的 模拟 器 算法 也 容易 构 
造 , 因 为 协议 4-12 实际 上 是 一 个 没有 交互 的 协议 。 

4. 电路 赋值 协议 

下 面 说 明 计算 任意 表示 成 GF(2) 上 的 算术 电路 的 确定 性 功能 函数 ,能 够 保密 归 约 到 计 
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算 乘 法 函数 。 首 先 将 要 计算 的 功能 函数 表示 成 电路 ,电路 的 输入 线 共 2n 条 ,每 个 参与 方 有 
nn 条 输入 线 , 为 简便 起 见 ,假设 每 个 参与 方 都 输出 n 个 比特 。 

协议 4-13 将 电路 赋值 函数 归 约 到 乘法 功能 函数 。 

输入 : 第 一 方 持 有 输入 ol xit € {10,1)", 第 二 方 持 有 输入 ad aad ,zx2€{0,1)"。 

(1) 分 享 输入 。 每 个 参与 方 将 输入 的 每 个 比特 与 对 方 分 享 。 第 一 方 均匀 选择 一 列 比特 
串 证 ,六 ,…,r? 发 送 给 第 二 方 ,这 样 ,第 一 方 的 每 个 输入 线 分 成 两 部 分 ,第 一 方 自己 持 有 输入 
线 的 分 享 是 act tort ci tri ee ,zf 十 熙 ,第 二 方 持 有 的 第 一 方 输入 线 的 分 享 是 让,r?,…,r?。 
第 二 方 用 同样 的 方法 分 享 自己 的 输入 线 ,第 一 方 持 有 的 分 享 是 rho BOW AH 
有 的 分 享 是 xi trises trisori trio 

(2) 电路 赋值 。 根 据 电路 的 线路 顺序 ,对 于 电路 中 的 每 个 门 有 两 条 输入 线路 ,两 个 参与 
方 利 用 关于 这 两 条 输入 线路 各 自 的 分 享 值 ,保密 计算 门 的 输出 的 分 享 。 两 个 参与 方 分 别 持 
有 某 个 门 两 条 输入 线 的 分 享 , 即 第 一 方 持 有 分 享 值 a 、b ,第 二 方 持 有 分 享 值 a; 、b。 。 其 中 ， 
ai a2 是 第 一 条 输入 线 的 分 享 , 即 ay 十 os 是 第 一 条 输入 线 上 的 输入 ;0 bo 是 第 二 条 输入 线 
的 分 享 , 即 b. +b, 是 第 二 条 输入 线 上 的 输入 。 因 为 讨论 GF(2) 上 的 算术 电路 ,因此 只 需 设 
计 协 议 保密 计算 加 法 门 和 乘法 门 两 种 具体 的 门 运算 。 

CD 加 法 门 赋值 。 第 一 方 持 有 的 关于 两 条 输入 线 的 分 享 分 别 是 a 、b ,第 二 方 持 有 的 关 
于 两 条 输入 线 的 分 享 分 别 是 ws .2 。 完 成 加 法 门 运算 的 协议 很 平凡 ,第 一 方 将 加 法 门 的 输出 
线 的 分 享 设置 为 ai 十 b ,第 二 方 将 此 门 的 输出 线 的 分 享 设置 为 a; 十 bs , 即 两 方 将 自己 的 输入 
分 享 值 分 别 相 加 得 到 输出 的 分 享 值 。 

@ 乘法 门 赋值 。 两 个 参与 方 以 各 自 关于 输入 的 分 享 值 (a1 bi A Ca «be ) 调 用 乘法 功能 
函数 ,以 函数 返回 的 回答 c .cs 作为 乘法 门 输出 的 各 自 的 分 享 值 。 根 据 乘 法 功能 函数 ,两 方 
的 输出 a co WE ci te= (lai tb) $ Carth). 

(3) 恢复 输出 。 一 旦 整个 电路 的 输出 线 的 分 享 确定 了 , 则 每 个 参与 方 将 每 条 输出 线 的 
分 享 值 发 送 到 对 方 相应 的 输出 线 ,将 每 条 输出 线 上 获得 的 计算 结果 的 分 享 值 与 从 对 方 收 到 
的 分 享 值 相 加 , 即 确定 出 每 条 输出 线 上 的 比特 。 

输出 : 将 输出 线 上 的 比特 输出 。 

命题 4-2 的 结论 说 明 协 议 4-13 将 计算 某 个 电路 功能 函数 归 约 为 乘法 功能 函数 ,并 且 归 
约 是 保密 的 ,其 证 明 可 参阅 文献 [114,115] 。 

命题 4-2 协议 4-13 将 电路 赋值 功能 函数 保密 归 约 为 乘法 功能 函数 。 

根据 前 面 一 系列 归 约 , 即 一 般 功能 函数 可 以 归 约 到 确定 性 功能 函数 ,确定 性 功能 函数 可 
以 归 约 到 乘法 门 计算 函数 ,乘法 门 计算 可 以 归 约 到 OTi ,这 样 可 以 将 任意 功能 函数 归 约 到 
功能 函数 OTI ,而 如 果 加 强 陷 门 置换 族 存在 , 则 OTI 能 够 被 保密 计算 。 因 此 ,对 于 半 诚 实 模 
型 ,有 如 下 的 基本 定理 。 

定理 4-8( 半 诚实 模型 中 的 基本 定理 ) 假设 存在 加 强 陷 门 置换 族 , 则 任意 功能 函数 在 
半 诚 实 模型 中 都 可 以 保密 计算 。 

通过 一 系列 的 归 约 和 构造 可 把 抵抗 半 诚 实 敌 手 的 协议 转化 为 抵抗 恶意 敌手 攻击 的 协 
议 , 从 而 建立 起 安全 两 方 计算 的 基本 定理 , 即 定理 4-9, 其 证 明 可 参阅 文献 [114,115]。 

定理 4-9( 安 全 两 方 计算 的 基本 定理 ) 假设 存在 加 强 陷 门 置 换 族 , 则 任意 功能 函数 在 
恶意 模型 中 都 可 以 安全 计算 。 
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4.3.3 安全 多 方 计算 


本 节 将 安全 两 方 计算 扩展 到 安全 多 方 计算 的 情形 ,其 最 终 目 标 仍然 是 设计 抵抗 任意 可 
行 敌 手 攻击 的 协议 ,方法 类 似 于 两 方 的 情形 。 首 先 对 半 诚 实 敌 手 设 计 协 议 , 然 后 对 恶意 敌手 
设计 协议 。 对 于 恶意 敌手 ,多 方 计算 较 之 两 方 情 形 复杂 ,要 考虑 两 种 不 同 的 模型 。 第 一 种 恶 
意 行为 模型 类 似 于 两 方 情 形 ,在 这 种 模型 中 ,敌手 可 以 入 侵 多 数 参与 方 ,在 安全 性 定义 中 允 
许 中 断 执 行 。 第 二 种 恶意 行为 模型 中 ,敌手 只 能 控制 严格 少数 的 参与 方 ,在 安全 性 定义 中 可 
有 效 防 止 中 断 执行 。 本 节 简 要 介绍 安全 多 方 计算 的 定义 和 基本 定理 。 

1. 安全 多 方 计算 的 定义 

一 个 多 方 协议 可 以 看 作 将 输入 序列 映射 到 输出 序列 的 随机 过 程 。 设 m 表示 参与 方 的 
个 数 ,为 简便 起 见 , 不 妨 设 m 是 固定 的 。 一 个 mm 元 功能 函数 记 为 f:({0,1)* )">({0,1)* )”， 
是 将 序列 z= 二 (zi ,zz，… zw) 映射 到 随机 变量 序列 fC Y= Cf Geo fa CE enn fin Cr 0 B BEL 
过 程 ,第 i 方 的 输入 是 zx; ,期望 获得 f Gn rn ns BUB iP DEBERI AERE fi (zi exse 
Dede 

对 于 两 方 计算 ,将 参与 方 之 一 作为 敌手 ;而 对 于 多 方 计算 ,引进 外 部 敌手 的 概念 , 即 存在 
外 部 敌手 ,控制 不 诚实 参与 方 的 集合 。 敌 手 可 以 控制 任意 个 数 的 参与 方 。 非 自 适应 敌手 在 
协议 执行 之 前 确定 要 入 侵 的 参与 方 集合 ,而 自 适应 敌手 在 协议 执行 过 程 中 ,利用 收集 到 的 信 
息 选 择 要 入 侵 的 参与 方 集合 ,这 里 仅 讨 论 非 自 适应 的 敌手 。 关 于 通信 信道 的 假设 是 ,外 部 敌 
手 可 以 搭 线 窃听 所 有 的 通信 信道 ,特别 是 诚实 方 之 间 的 通信 。 

半 诚 实 模型 的 定义 类 似 于 两 方 计算 的 情形 。 半 诚实 参与 方 是 指正 确 执行 协议 ,但 是 会 
记录 中 间 运 算 的 结果 。 

定义 4-28( 安 全 多 方 计算 ,无 搭 线 窃 昕 ) 设 f:({0,1)" 07 (00.1) 1 0" 是 一 个 m 元 功 
能 函数 ,fi(zi ,zo ，… ,Xn BEAR f Cay tee ,zm) 的 第 i 个 分 量 。 对 于 I= isis si} S 
[mJ] 二 {1,2,…,m) , 令 fi(zi ,Xs，… ns EI FFF Ki, Cay Ze tttm. fi nx 
Imo IL dil SE f 的 m 方 协议 。 第 i 方 执行 协议 过 程 中 的 观察 如 定义 4-23, 记 为 VIEW! Gr). 
REF I= (is sissi) S VIEW G) =U, VIEW] GO. 7 VIEW GOD. 243] f PRR f 是 确 
定性 函数 时 , 称 协议 匡 安 全 计算 f, 如 果 存 在 PPT 算法 S, 使 得 对 任意 Ilm] A 





(SG (ai, ax, sx fi GOD beecouy ty = {VIEWY(z)}zedon')y 
— fiib DT HE FMR AE LE PPT 算法 S, 使 得 对 任意 I-[m ] A 
(GS Gi, «ai ean fi OD fE geom = UVIEWI GO OUTPUT? z)))zeqoa» 


其 中 OUTPUT? Gr) RAI ABS 7; 8958 HA 

对 于 敌手 可 以 搭 线 窃听 的 情况 .只 需 在 VIEWT Cr) Pol SE Va 69 388 fri BI RT 

下 面 讨 论 抵抗 恶意 敌手 攻击 的 安全 性 定义 。 根 据 敌 手 控制 参与 方 的 个 数 , 分 为 两 种 情 
况 。 第 一 种 情况 是 对 敌手 控制 参与 方 的 个 数 不 加 限制 ,对 于 这 种 情况 ,安全 计算 任意 功能 函 
数 的 协议 设计 完全 类 似 于 两 方 情形 ,并 且 安 全 性 定义 允许 协议 中 断 。 第 二 种 情况 是 敌手 控 
制 参 与 方 个 数 严格 小 于 一 半 ,对 于 这 种 情况 ,安全 计算 任意 功能 函数 的 协议 设计 比 两 方 情形 
简单 ,并 且 安 全 性 要 求 协议 不 能 中 断 。 

第 一 类 恶意 模型 类 似 于 两 方 情形 。 在 第 一 类 恶意 模型 中 ,有 以 下 3 种 攻击 行为 不 可 
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避免 : 

CD 敌手 控制 的 恶意 参与 方 拒绝 参与 协议 运行 ,与 两 方 情形 相同 ,在 多 方 计算 协议 中 ， 
将 这 种 行为 看 作 一 种 特殊 的 输入 替换 。 

(2) 恶意 参与 方 替换 输入 ,运行 协议 所 用 的 输入 与 外 界 提供 的 输入 不 同 。 

(3) 恶意 参与 方 中 断 协议 运行 。 

相应 地 ,在 理想 模型 中 ,尽管 引进 了 可 信 方 ,但 这 3 种 行为 也 是 不 能 避免 的 ,同样 赋予 恶 
意 的 第 一 方 叫 停 可 信 方 的 权利 , 即 当 敌手 控制 第 一 方 时 ,能 够 阻止 可 信 方 发 送 计 算 结 果 给 其 
他 参与 方 。 

定义 4-29( 第 一 类 恶意 模型 所 对 应 的 理想 模型 ) E fdo) 0" (40.1) 0" 是 一 个 
m 元 功能 函数 。 对 于 I= {i sizs si} mm] (0.2. m) I [m]M. Gn oto 0 tm 1 = 
(za bX ，"…* oT )。 用 (1,B) 表 示 理 想 模 型 中 的 敌手 ,其 中 IC[m].B 是 PPT 算法 。 理 想 模 
型 中 关于 (1,B) 的 联合 执行 记 为 IDEAL Bo ( 工 ) ,定义 如 下 : 

COD 第 一 方 是 诚实 方 , 则 IDEAL, B (Z) Wf (2). BCE, Tozer fi(z'))), 其 中 
工 ' 二 (x1 ape ,7X4), 使 得 对 于 iE1, 有 zz! 一 B(T1,T,z,7);, 对 于 iK1, 有 x! 二 =x;。 

(2) 第 一 方 不 诚实 , 则 IDEAL? co ( 工 ) 为 

CL" Biz, Lernfiz), L)) FB Ler fiz) =L 
Cfi Ge ) BCE, Lezers fi Cx 0)) # BGibzrfGD»zl 

其 中 zx = (ai srr ,x%) 使 得 : MF ELA xi—BGpebzonsS Til xix 

定义 4-30( 第 一 类 恶意 模型 中 的 安全 性 ) ERZ S MEX 4-29 中 所 示 , 协 议 II 
是 计算 了 的 m 方 协议 。 实 际 协议 中 开关 于 (1,A) 的 联合 执行 记 为 REALr raw Cr) ,定义 成 
m 个 参与 方 交互 产生 的 输出 对 ,其 中 恶意 参与 方 产生 的 消息 根据 A Co DE E ,诚实 方 产 
生 的 消息 根据 协议 五 的 指令 计算 。 称 协议 二 在 第 一 类 恶意 模型 中 安全 计算 功能 函数 三 ,如 
果 对 于 实际 协议 中 的 任意 PPT 算法 A ,都 存在 理想 模型 中 的 PPT 算法 B, 使 得 对 任意 IS 
[m]. A {IDEAL}. G2) z -六 (REALmrac GO) ese 

注意 ,此 处 理想 模型 敌手 B 控制 的 参与 方 集合 与 攻击 实际 协议 敌手 A 控制 的 参与 方 集 
合 相同 。 

定义 4-31( 第 二 类 恶意 模型 中 的 安全 性 ) ” 设 功能 函数 f 如 定义 4-29 中 所 示 , 协 议 区 
是 计算 f Hm 方 协议 。 理 想 模 型 敌手 除了 不 允许 中 断 之 外 ,完全 与 定义 4-29 rn — FE ,理想 
模型 中 三 关于 (1,B) 的 联合 执行 记 为 IDEAL B0 ( 工 ) ,实际 协议 中 开关 于 (1,A) 的 联合 执 
行 记 为 REALmrac ( 工 ) ,定义 为 m 个 参与 方 交互 产生 的 输出 对 ,其 中 恶意 参与 方 产生 的 消 
息 根据 A(z1,1,zx) 计 算 , 诚 实 方 产生 的 消息 根据 协议 廿 的 指令 计算 。 称 协议 荆 在 第 二 类 
恶意 模型 中 安全 计算 功能 函数 f ,如果 对 于 实际 协议 中 的 任意 PPT 算法 A, 都 存在 理想 模 
型 中 的 PPT 算法 B, 使 得 对 任意 IC [m]. | E] — m/2. A (IDEAL? s (Z)) 22 = 
(REALz (Laco G2) e. 

2. 安全 多 方 计算 的 基本 定理 

通过 类 似 于 两 方 的 情形 那样 的 一 系列 归 约 和 构造 ,可 建立 起 关于 安全 多 方 计算 的 一 般 
性 结论 , 即 定理 4-10, 其 证 明 可 参阅 文献 L[114.115]。 
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定理 4-10( 安 全 多 方 计 算 的 基本 定理 ) 假设 存在 加 强 陷 门 置换 族 , 网 络 中 存在 公 钥 基 
础 设施 , 则 任意 m 方 功能 函数 在 两 类 恶意 模型 中 都 可 以 安全 计算 。 


4.4 函数 加 密 技 术 


函数 加 密 (Functional Encryption, ,FE) 的 概念 是 由 Sahai 等 人 于 2005 年 提出 的 D29 ,是 
属性 加 密 的 一 般 化 。 函 数 加 密 是 一 类 公 钥 加 密 方案 ,除了 使 用 正规 的 秘密 密 钥 解密 数据 以 
外 ,还 有 函数 秘密 密 钥 。 函 数 秘密 密 钥 不 是 用 来 解密 数据 ,而 是 用 来 访问 对 应 的 函数 在 数据 
上 计算 的 结果 。 更 形式 化 地 讲 , 密 钥 生 成 算法 (KeyGen) 涉 及 一 个 函数 了 并 返回 一 个 密 钥 
sk, ,解密 算法 Dec(sky,c) 返 回 f Cx) XE c— EncCpk.a)2 .J& HH Z3] pk 对 明文 x 的 加 密 结 
果 , 即 密 文 ,Enc 是 加 密 算法 。FE 的 安全 性 必须 确保 拥有 函数 f 对 应 的 密 钥 的 人 没有 获得 
关于 数据 z 的 比 f(z) 更 多 的 信息 ,特别 地 ,FE 必须 确保 即使 拥有 多 个 函数 对 应 的 密 钥 的 人 
也 不 能 获得 比 对 应 函数 的 输出 更 多 的 信息 , 即 能 抵抗 合谋 攻击 "3 。 

Boneh 和 O'Neil 等 人 D729 最 早 给 出 了 函数 加 密 的 形式 化 处 理 ,但 很 快 就 有 人 指出 , 构 
造 这 种 类 型 的 有 效 的 、 安 全 的 、 一 般 性 的 FE 方案 有 很 大 的 局 限 性 0 中。 给 出 FE 的 合理 
的 安全 性 定义 并 非 一 件 易 事 , 基 于 不 可 区 分 性 的 定义 (也 称 基于 游戏 的 定义 ) 在 某 些 方面 太 
弱 而 不 能 真正 地 捕获 期 望 的 安全 性 ;基于 模拟 的 定义 太 强 , 现 有 的 大 多 数 方案 都 不 能 满足 这 
种 安全 性 。 因 此 ,目前 有 大 量 的 工作 转向 理解 这 些 定义 的 相对 能 力 和 安全 性 中。 尽管 
这 些 定义 有 局 限 性 ,但 已 构造 出 了 大 量 的 FE 方案 ,大 多 数 构造 主要 集中 在 一 类 受 限 制 的 方 
案 , 只 有 单一 的 函数 密 钥 能 被 分 配 在 方案 的 执行 过 程 中 02229 。Gorbunov EAP 对 这 个 
限制 做 了 改进 ,允许 方案 发 布 一 个 有 界 量 的 函数 密 钥 ,这样 就 可 以 容忍 一 个 有 界 量 的 合谋 ， 
但 这 个 方案 的 参数 随 着 合谋 界 的 增长 而 增长 ,使 得 其 合谋 界 较 大 时 不 实用 。Naveed 等 
人 0550 给 出 了 一 个 稍 有 不 同 的 方法 ,这 种 方法 需要 数据 拥有 者 之 间 进 行 交 互 , 数 据 拥 有 者 对 
其 拥有 的 数据 的 函数 生成 密 钥 ,任何 参与 方 都 在 加 密 数据 上 计算 函数 。 这 种 方法 只 适用 于 
小 规模 的 数据 ,对 大 数据 是 不 适用 的 。 一 些 近来 的 工作 已 经 表明 ,可 构造 出 抵抗 无 界 合谋 攻 
击 的 、 达 到 安全 性 的 FE 方案 ,然而 ,这 些 方案 的 安全 性 依赖 于 很 强 的 而 不 被 广泛 接受 的 假 
设 , 如 不 可 区 分 混淆 的 存在 性 号 或 在 多 线性 映射 上 的 某 些 问 题 的 困难 性 9 。 

近年 来 提出 的 很 多 加 密 概 念 和 构造 可 被 视 作 函 数 加 密 的 特殊 情况 ,其 典型 代表 有 
具有 公开 索引 的 谓词 加 密 和 谓词 加 密 0*" 中 。 具 有 公开 索引 的 谓词 加 密 又 称 载荷 隐藏 
(payload hiding) ,包括 基于 身份 的 加 密 (IBE)029 和 基于 属性 的 加 密 (ABE)Dso 。Boneh 等 
人 构造 了 第 一 个 实用 的 IBE 7j 4809059 ,这 些 方案 在 随机 预言 模型 下 ,依据 不 可 区 分 的 定义 
是 安全 的 ;后 续 的 一 些 方案 0229 在 标准 模型 下 被 证 明 是 安全 的 ,但 其 安全 性 基于 一 个 弱 的 
概念 , 即 选 择 安全 性 的 定义 ;在 标准 模型 下 可 证 明 适 应 性 安全 的 方案 可 参阅 文献 [135-137]; 
也 有 多 个 基于 格 构 造 的 IBE JRI, Goyal ACE ABE 这 个 概念 分 成 两 类 , 即 密 钥 
策略 ABE( 简 称 KP-ABE) 和 密 文 策略 ABE( 简 称 CP-ABE)。CP-ABE 方案 的 构造 可 参阅 
文献 [142-144]。 大 多 数 ABE( 包 括 KP-ABE 和 CP-ABE) 的 构造 被 证 明 在 弱 的 选择 模型 下 
是 安全 的 。 文 献 [145] 给 出 的 ABE 方案 满足 文献 [117] 定 义 的 安全 性 。 谓 词 加 密 包 括 匿 名 
的 基于 身份 的 加 密 吕 9 i a nk EOP 和 内 积 谓词 ?9 。 匿 名 的 基于 身份 加 密 是 由 Boneh 
等 人 049 首 次 提出 的 ,后 来 是 由 Abdalla 等 人 55 形 式 化 的 。 其 他 的 构造 可 参阅 文献 [137， 
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139,140,148]。 人 们 也 对 已 有 的 各 类 方案 进行 了 不 同 的 组 合 和 研究 ,相关 组 合 方案 有 基于 
属性 的 加 密 和 广播 加 密 的 组 合 方案 中、 基于 身份 的 广播 加 密 方案 "* 1、 广播 HIBE 方 
SEU 以 及 内 积 加 密 和 ABE 的 组 合 方案 "59 ,所 有 这 些 方案 都 可 以 归结 为 函数 加 密 的 特殊 
情况 。 

虽然 FE 为 了 能 够 很 严密 地 控制 访问 在 敏感 数据 上 的 计算 提供 了 巨大 的 希望 ,但 是 这 
种 方法 目前 仍然 停留 在 理论 研究 阶段 ,已 有 的 方案 大 多 数 效 率 都 很 低 , 不 能 在 实际 中 应 用 ， 
而 且 依 赖 于 很 强 的 安全 假设 。 关 于 函数 加 密实 现 方面 的 研究 很 少 , 一 个 原型 实现 可 参阅 文 
献 L[124] 。 

本 节 主 要 介绍 函数 加 密 的 基本 概念 和 基本 构造 ,主要 取材 于 文献 [117] 。 


4.4.1 函数 加 密 的 语法 定义 


现在 介绍 关于 一 个 功能 (functionality)F 的 函数 加 密 的 语法 定义 ,功能 下 描述 一 个 可 从 
密 文 获得 明文 的 函数 ,功能 更 精确 的 定义 如 下 。 

定义 4-32( 功 能 ) 一 个 定义 在 (K,X) 上 的 功能 下 是 一 个 函数 政 :K XX 一 {0,1)" ,可 描 
述 为 一 个 (确定 型 ) 图 灵机 。 集 合 K 为 密 钥 空间 ,集合 X 为 明文 空间 ,这 里 要 求 密 钥 空间 K 
包含 一 个 特殊 的 密 钥 ,这 个 特殊 的 密 钥 称 作 空 密 钥 , 记 为 e。 

一 个 关于 功能 下 的 函数 加 密 方 案 能 在 给 定 z 的 加 密 和 k 的 秘密 密 钥 sk, 时 计算 FCR. 
x). EA sk, 计算 下 (k,z) 的 过 程 称 作 解密 ,函数 加 密 更 精确 的 定义 如 下 。 

定义 4-33( 函 数 加 密 ) ”一 个 关于 定义 在 (K,X) 上 的 功能 下 的 函数 加 密 (FH) 方 案 是 一 
个 四 元 组 PPT 算法 (setup,keygen,enc,dec), 这 4 个 PPT 算法 对 所 有 的 kEK Mla € X i 
[dio mi 

COD 产生 一 个 公 钥 和 主 秘密 密 钥 对 , 即 (pp,mk)<-setup(1*)。 

(2) petia 一 个 秘密 密 钥 , 即 sk<-keygen(mk.k). 

(3) 加 密 消息 z, 即 c<-encCpp,z)。 

(4) 使 用 sk Moc FE F (e 32 Bl y<-dec(sk,c)。 

其 中 y—FG a0 ERO 1. 

函数 加 密 的 安全 性 将 在 4.4.3 节 和 4.4.4 节 中 定义 ,现在 简要 地 说 明 标 准 的 公 钥 加 密 
是 函数 加 密 的 一 个 特例 。 设 K 二 {1,e} ,对 某 一 明文 空间 X, 在 (KK,X) 上 定义 功能 下， 

Fx) = f rex 
en(z) k=e 

Re 1 的 秘密 密 钥 ,将 合法 的 密 文 全 部 解密 ;而 对 空 密 钥 &=e, 简 单 地 返回 明文 的 长 
度 。 因 此 ,这 个 功能 从 语法 上 定义 了 标准 的 公 钥 加 密 。 

K 中 的 空 密 钥 e 捕获 了 关于 从 密 文 故意 泄露 的 明文 的 所 有 信息 ,如 被 加 密 明文 的 长 度 。 
相应 于 e 的 秘密 密 钥 是 空 的 并 且 也 表示 为 <。 这 样 ,任何 人 能 在 c<-enc(pp,x) 上 运行 dec 
(es,c) 并 获得 从 密 文 c 故意 泄露 的 明文 的 所 有 信息 。 

在 有 些 情况 下 , 密 钥 空间 K 和 明文 空间 X 需要 进一步 由 setup 算法 产生 的 量 来 参数 
化 。 人 允许 setup 算法 输出 一 TER x 并 将 密 钥 空间 和 明文 空间 分 别 表示 为 K. AX, Fe 
定义 为 F,:K,X X,—00.1)* 。 如 果 在 上 下 文中 是 清晰 的 ,可 略 去 下 标 x。 

最 后 定义 两 类 特殊 的 函数 加 密 ,其 明文 空间 具有 附加 的 结构 。 
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一 类 是 谓词 加 密 。 在 许多 应 用 中 ,明文 xEX 本 身 是 一 个 对 (ind,xz)ETXM, 其 中 ind 
称 作 索 引 ,m 称 作 载荷 消息 。 例 如 ,在 一 个 邮件 系统 中 ,索引 可 以 是 发 送 者 的 名 字 , 而 载荷 
是 邮件 内 容 。 在 这 种 场景 下 ,一 个 FE 方案 依据 一 个 多 项 式 时 间 谓 词 P:K XI 一 {0,1} 来 定 
MK 是 密 钥 空间 。 更 精确 地 ,在 (KU {e}. IXM) EK FE 的 功能 定义 为 
m Plk,ind)=1 
L PCR,ind) = 0 

因此 , 设 c 是 (ind,z) 的 一 个 密 文 ,ske JÉX T & € K 的 一 个 秘密 密 钥 , 则 当 PCR. ind) = 
1 时 ,decCsks,c) 揭 示 了 在 c 中 的 载荷 消息 ;否则 没有 揭示 关于 m 的 任何 信息 。 

另 一 类 是 具有 公开 索引 的 谓词 加 密 。 谓 词 加 密 的 一 个 特例 是 从 密 文中 容易 读 出 索引 。 
特别 地 ,在 这 种 类 型 的 FE 中 , 空 密 钥 e 清晰 地 揭示 了 索引 ind, Bl FC, Gnd,m)) = (ind, len 
(m))。 因 此 ,任何 人 都 可 通过 运行 dec(e,c) 揭 示 明 文 的 索引 分 量 和 m 的 比特 长 度 。 


4.4.2 函数 加 密实 例 


本 节 给 出 函数 加 密 的 一 些 具体 实例 ,以 表明 函数 加 密 是 如 何 抓 住 这 些 加 密 概念 的 特 
征 的 。 


l. 具有 公开 索引 的 谓词 加 密 方案 

下 面 从 最 简单 最 有 趣 的 基于 身份 的 加 密 开始 介绍 。 这 里 使 用 在 4. 4. 1 节 定 义 的 谓词 加 
密 符号 描述 这 些 方 案 。 

CD 基于 身份 的 加 密 。 在 基于 身份 的 加 密 (IBE) 中 , 密 文 和 私 钥 与 串 ( 即 身 份 ) 相 关联 ， 
并 且 如 果 两 个 串 是 相等 的 , 则 一 个 密 钥 能 够 解密 一 个 密 文 。IBE 可 被 描述 为 一 个 谓词 加 密 
方案 ,其 中 : 

(D 密 钥 空 间 K={0,1}* Ute). 

© 明文 是 一 个 对 (ind,m) ,索引 空间 I={0,1}*。 

© 在 K\{e)} XI 上 的 谓词 P 定义 为 


F(k € K,(ind,m) € IX M) = | 


1 k= ind 
0 kind 

为 了 使 这 些 方案 实际 地 支持 空 密 钥 e, 密 文 必须 清晰 地 包括 索引 ind 和 消息 的 长 度 。 

(2) 基于 属性 的 加 密 。 基 于 属性 的 加 密 (ABE) 能 表达 复杂 的 访问 策略 。 首 先 采 用 
Goyal 等 人 5 实现 的 方法 ,利用 布尔 公式 描述 密 钥 策略 ABE。 一 个 有 个 变 元 的 密 钥 策略 
ABE 方案 可 被 描述 为 一 个 具有 公开 索引 的 谓词 加 密 方案 ,其 中 : 

O 密 钥 空间 K 是 所 有 的 关于 NE= Cay ze tt ez) EC (061)" 的 多 项 式 尺寸 布尔 
公式 $ WEEMS BHA cH $(z<) 表 示 公 式 $ 在 z 处 的 值 。 

© 明文 是 一 个 对 (ind 二 z,m) ,索引 空间 1 二 10,1)", 这 里 把 z 解释 为 表示 布尔 值 x;， 
xs 的 比特 向 量 。 

© 在 K\{se} XI 上 的 谓词 P, 定义 为 


P(k € KMe).ind € D = | 


1 $021 
0 $00 

在 这 种 方案 中 , 密 钥 提供 了 一 个 访问 规则 ,为 了 解密 载荷 消息 m «I E n AP PERS E 
合 上 的 计算 必须 使 用 布尔 值 。 


P,($ € KMel,ind-z€ I) = | 
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基于 属性 加 密 的 对 偶 概 念 是 密 文 策略 ABE, 这 里 的 密 文 和 密 钥 的 作用 本 质 上 是 互 道 
的 。 一 个 在 个 变 元 上 的 密 文 策略 ABE 方案 可 被 描述 为 一 个 具有 公开 索引 的 谓词 加 密 方 
案 , 其 中 : 

(D 密 钥 空间 K 是 所 有 的 表示 nn 个 布尔 变 元 < 二 (zi ,zs，…,z,)E10,1)" 的 n 比特 串 的 
ERMA BAe BM K={0,1)"U {e}. 

@ 明文 是 一 个 对 (ind 二 $,m) ,索引 空间 I 是 所 有 的 在 n 个 变 元 上 的 多 项 式 尺寸 布尔 公 
式 $ 的 集合 。 

© 在 K\{e) XI 上 的 谓词 P, 定义 为 
1 $4021 


P,(z € K\{e},ind = $ € D = { 
0 g(z) =0 


2. 谓词 加 密 方案 

上 面 介绍 的 函数 加 密实 例 泄露 了 索引 ,这 是 因为 索引 作为 空 功 能 的 一 部 分 通常 是 敏感 
的 。 另 外 ,不 允许 在 加 密 数 据 上 进行 运算 ,这 在 搜索 中 是 有 需求 的 。 下 面 描述 没有 泄露 索引 
的 谓词 加 密 方案 。 

(1) 匿名 的 基于 身份 加 密 。 匿 名 IBE 的 功能 类 似 于 IBE, 除 了 表示 密 文身 份 的 串 是 隐 
藏 的 并 且 只 有 拥有 对 应 私 钥 的 人 才能 确定 它 以 外 。 因 此 ,可 以 像 上 述 方案 一 样 精确 地 描述 
匿名 IBE, 除 了 Fle,(ind,m)) 二 len(m) 以 外 , 空 功能 仅 给 出 了 消息 的 长 度 , 而 索引 仍然 被 
隐藏 。 

(2) 隐藏 向 量 加 密 。 在 隐藏 向 量 加 密 方 案 中 ,一 个 密 文 包含 一 个 个 {0,1}" 中 的 元 素 
的 向 量 , 一 个 私 钥 是 由 一 个 个 {x*)}U{0,1)* 中 的 元 素 组 成 的 向 量 ,这 里 将 * 称 作 通配符 
(wildcard)。 更 精确 地 ,有 以 下 方案 : 

O 密 钥 空间 K 是 所 有 的 (ww ,wm ees Cu € { * }U (0.1) * ) 和 空 密 钥 @。 

© 明文 是 一 个 对 (ind==(@ ,oa «t o) m) «e; € (0.1) * ,索引 空间 1=({0,1)"* 2", 

© E K\{e} XI 上 的 谓词 P, 定义 为 
v; ~ * (此 时 有 vi = w) 

否则 

该 方案 可 应 用 于 级 联 搜索 和 区 间 搜 索 。Shi 等 人 055 独 立地 提出 了 一 个 在 弱 安 全 模型 
下 安全 的 相关 方案 。 注 意 , 这 里 FC.(CGnd.m)2) —lenCo) ,所 以 密 文 没 有 揭示 索引 。 

(3) 内 积 谓词 。 前 面 的 方案 仅 限于 级 联 搜索 ,Katz 等 人 0259 提 出 了 一 种 方案 ,用 于 测试 
一 个 环 Zv 上 的 点 积 运算 是 否 等 于 0, 其 中 N 是 由 setup 算法 选择 的 3 个 随机 素数 之 积 。 这 
种 方案 可 进行 非 交 、 多 项 式 和 CNF/DNF 公式 等 更 复杂 的 计算 。 后 来 ,Okamoto 4 AM) 
给 出 了 有 限 域 F, 上 的 构造 ,现在 描述 长 为 n 的 向 量 的 谓词 。 

(D setup 算法 定义 一 个 随机 选择 的 长 为 < 的 素数 p c 是 安全 参数 。 

© BAB K 是 所 有 的 v= 二 (vi ve v0 Co CF, ERMA EH] e. 

图 明文 是 一 个 对 (ind 二 (ow2 7, m) «e; € F, ,索引 空间 [一 (Fo)"。 

@ 在 K\{e)} XI 上 的 谓词 P,,, 定 义 为 


1 
P.0,,9,,76) € KV) ind = (5:7) € D = {o 


1 [T1539 -w =0 
0 否则 


P, C00 (v; 70) € K\ {e} pind = (a sws on) € D = 
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4.4.3 函数 加 密 的 语义 安全 性 定义 和 构造 


4.4.1 节 给 出 了 函数 加 密 的 语法 定义 ,现在 讨论 函数 加 密 的 安全 性 定义 ,本 节 给 出 基于 
游戏 的 安全 性 定义 ( 称 为 语义 安全 或 不 可 区 分 安全 ) ,4. 4.4 节 将 给 出 基于 模拟 的 安全 性 定 
义 ( 称 为 模拟 安全 ) ,同时 也 构造 了 满足 相应 安全 性 要 求 的 FE 方案 。 

设 & 是 一 个 关于 定义 在 (K,X) 上 的 功能 下 的 FE 方案 ,目标 是 定义 一 个 适应 性 敌手 的 
安全 性 ,该 敌手 重复 地 请 求 由 攻击 者 选择 的 &EK 的 秘密 密 钥 sk:。 问 题 是 如 何 定义 语义 安 
全 游戏 中 的 挑战 密 文 。 像 通常 一 样 ,一 旦 攻击 者 获得 他 所 期 望 的 秘密 密 钥 ,就 输出 两 个 挑战 
消息 mo «mi € X 并 期 望 返回 一 个 由 挑战 者 随机 选择 的 me。 或 m 的 加 密 c。 显 然 , 如 果 攻 击 
者 有 一 个 关于 某 个 kEK 的 秘密 密 钥 sk, IEF Uem ) AF CK «mi ), 则 他 能 很 容易 地 按照 如 
下 输出 回答 挑战 c: 

0 WER decCskk,c) = FG mo) 


1 否则 
因此 ,必须 要 求 攻击 者 选择 的 mo ,mi € X 满足 下列 条 件 : 对 攻击 者 拥有 ski 的 所 有 上 ,都 有 
F(ksmo) = FG m) (4-4-1) 


因为 空 密 钥 揭示 了 明文 的 长 度 , 条 件 (4-4-1) 确 保 了 |xmo | 三 1mi|, 像 标准 的 公 钥 加 密 的 语 
义 安 全 性 一 样 。 

使 用 上 述 条 件 可 获得 如 下 一 个 定义 FE 方案 8 的 安全 性 的 自然 的 游戏 (也 称 实验 ) 。 

游戏 4-3 ”对 5 二 0,1, 定 义 一 个 敌手 A 的 实验 5 如 下 : 

CD 挑战 者 运行 setup 算法 生成 (pp,mk)<-setup(1*) ,并 将 pp 发 送 给 敌手 A. 

(2) 敌手 A 适应 性 地 提交 询问 ;EK ,i 二 1,2,3…, 并 得 到 私 钥 sk; <keygen(mk.;). 

(3) 敌手 A 提交 两 个 满足 上 述 条 件 的 消息 mo mi EX, 挑 战 者 将 enc (pp. my) RIK AK 
FA; 

(4) 敌手 A 像 第 (2) 步 那样 继续 发 布 密 钥 询问 并 最 终 输出 一 个 比特 0 或 1。 

dE Wb 二 0,1) 是 敌手 在 游戏 4-3( 即 实验 0) 中 输出 1 的 事件 ,定义 FE (6, A] A) = 
| PrEW, ] — PrECW; ]l 

定义 4-34( 语 义 安全 性 ) —P FE NR ERA 3C A UU XC KR A9 aR 
有 的 PPT 算法 A. PAR FEQ L6.A CO EF A 是 可 忽略 的 。 

从 0,1 世界 来 看 “FE.s[6,A]G) 王 |PrLWo] 一 PrLW;,]| 是 可 忽略 的 ?含义 是 : 在 0 世 
界 猜测 自己 在 1 世界 的 概率 与 在 1 世界 猜测 自己 在 1 世界 的 概率 差不多 。 

定义 4-34 是 文献 [127,128] 中 相关 定义 的 一 般 化 。 

1. 一 个 语义 安全 的 变 力 方案 

下 面 使 用 蛮 力 (brute force) 方 法 构造 一 个 语义 安全 的 FE 方案 , 称 为 蛮 力 FE 方案。 ik 
密 钥 空间 K 是 多 项 式 尺 寸 的 , 令 s=|K|—1,K={e,kiskzs sk) AFAR 秘密 密 钥 和 
密 文 等 的 尺寸 都 由 s 来 确定 。 

设 (G,E,D) 是 一 个 语义 安全 的 公 和 钥 加 密 方案 ,G 是 密 钥 生成 算法 ,E 是 加 密 算法 ,D 是 
解密 算法 。 使 用 (G,E,D) 实 现 功 能 下 的 蛮 力 FE 方案 的 工作 流程 如 下 : 

(1) setup(1): 对 i 二 1,2,…,s, 运 行 (ppi,mk;) 一 G(1), 输 出 pp= (pp: ,ppz，*… ,PPp;) 
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和 mk- (mk, . mk; ,… ,mk,) 。 

(2) keygen(mk.&;): 输出 sk; =mk;. 

(3) encCpp. 22: fiit c— (CFCes 32 ECppi FC 30)  ECpp; FC; 32) 5. ECpp,. 
Fk; x20). 

(4) decCsk;.c) : 如 果 sk; =e. fi HH co ;否则 ,输出 D(Csk; c. 

显然 ,一 个 密 文 c ERE T FO 2026-12. S2 B REE. AE Ds Y lx d Vai de 
安全 的 ,必须 假定 这 个 信息 已 经 由 空 功能 F(e, * DIESE BD | FOR 1321 G— 1.2. 0 818 TE 
Fe,z) 之 中 ,也 说 下 揭示 了 功能 的 比特 长 度 。 

定理 4-11 设 下 是 一 个 揭示 了 功能 的 比特 长 度 的 功能 。 如 果 (G,E,D) 是 一 个 语义 安 
全 的 公 钥 加 密 方案 , 则 上 述 实现 下 的 蛮 力 FE 方案 是 语义 安全 的 。 

可 通过 一 个 标准 的 混合 论证 跨越 挑战 密 文 的 * 个 分 量 来 证 明定 理 4-11。 

2. 语义 安全 性 定义 的 不 充分 性 

现在 说 明 对 某 些 复杂 的 功能 ,定义 4-34 太 弱 ,也 就 是 说 对 这 些 功 能 构造 的 方案 是 语义 
安全 的 ,但 并 不 认为 是 安全 的 。 下 面 用 一 个 简单 的 例子 来 说 明 语义 安全 性 定义 是 不 充分 的 。 

设 zx 是 一 个 单 向 置换 ,功能 下 只 允许 平凡 的 密 钥 s ,定义 如 下 : F(e,x) 二 x(x)。 显 然 ， 
为 了 对 这 个 简单 的 功能 实现 函数 加 密 , 一 个 正确 的 实现 方法 是 让 函数 加 密 算法 本 身 简单 地 
关于 输入 工 输出 x(z), 即 enc(pp,z) 一 r(Cz)。 这 个 方案 可 达到 4. 4. 4 节 提 出 的 模拟 安全 
性 。 然 而 ,这 里 考虑 一 个 对 这 个 功能 的 不 正确 实现 ,让 函数 加 密 算法 关于 输入 z 输 出 zx, 即 
enc(pp;z) 二 x+。 很 显然 ,这 个 方案 关于 明文 泄露 的 信息 远 比 需要 的 信息 多 。 很 容易 验证 ， 
这 个 构造 满足 语义 安全 性 。 这 是 因为 对 任何 两 个 值 z+、y,F(e,x) 二 Fle,y) 当 上 且 仅 当 x=y， 
因此 攻击 者 仅 能 发 布 挑战 消息 mo mi ,这 里 zz 一 mi。 然而 ,这 个 有 问题 的 方案 不 能 满足 
4.4.4 节 提出 的 模拟 安全 性 。 这 是 因为 ,如 果 z 被 随机 地 选择 ,现实 生活 中 的 敌手 将 总 能 恢 
复 z, 而 模拟 器 在 没有 破译 置换 x 的 单 向 性 的 情况 下 将 不 能 恢复 工 。 

很 容易 将 上 述 功能 例子 下 修改 为 恰好 在 一 个 非 平凡 密 钥 &E K 上 的 情况 , 即 功能 F 
允许 非 平凡 的 密 钥 ,定义 F(k,z) 一 x(x)。 与 上 述 构 造 的 唯一 差别 是 ,在 正确 实现 的 情况 
下 ,功能 加 密 算法 输出 x(z) 的 一 个 标准 公 钥 加 密 ;而 在 不 正确 实现 的 情况 下 ,输出 x 的 一 个 
标准 公 钥 加 密 。 关 于 密 钥 的 秘密 密 钥 是 标准 公 钥 加 密 方案 的 秘密 密 钥 。 另 外 ,容易 验证 
不 正确 的 实现 满足 语义 安全 性 。 


4.4.4 函数 加 密 的 模拟 安全 性 定义 和 构造 


本 节 基 于 模拟 的 工具 来 探讨 函数 加 密 的 安全 性 定义 ,必须 抓 住 以 下 本 质 : 当 给 定 z 的 
一 个 加 密 时 ,对 应 于 密 钥 RE K 的 秘密 密 钥 sk, 将 只 揭示 下 (CR,z) 。 

用 AB OCC AERE HE A 能 发 布 一 个 询问 g 到 它 的 预言 器 ,此 时 B(g.z) 将 被 执行 并 输 
出 一 个 对 (y,zx’)。 值 y 被 交 给 A 作为 它 的 询问 的 回答 ,变量 z 被 设置 为 zx“ ,这 个 更 新 的 值 
被 反馈 给 下 一 次 作为 预言 器 被 询问 的 算法 B, 并 反馈 给 以 z 作为 输入 、 在 后 来 的 实验 中 执行 
的 任何 算法 。 用 AP ‘表示 A 能 发 送 一 个 询问 g 到 它 的 预言 器 ,此 时 B'(g) 被 执行 ,并 且 B 
所 做 的 任何 预言 器 询问 由 A 回答 。 

定义 4-35( 模 拟 安全 性 ) 一 个 FE 方案 是 模拟 安全 的 ,如 果 存 在 一 个 (预言 器 PPT 
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算法 Sim= (Sim, ,Simo . Sim, ) ,使 得 对 任何 (预言 器 )PPT 算法 Message 和 Adv, 下 列 两 个 
分 布 样本 (在 安全 参数 上 ) 是 计算 上 不 可 区 分 的 : 

CD 实际 分 布 : 

(D (pp,mk)<setup(1) 。 

© (x,r) Message? Qo > (pp), 

(3 c--encCpp.x). 

(D a«- Adyt O (pp. er), 

© 设 yis ys rn yi 是 在 前 面 的 步骤 中 由 Message 和 Adv 所 做 的 对 keygen 的 询问 。 

© 输出 (ppxryrayyyy wy)。 

(2) 理想 分 布 : 

(D (pp.o)<Sim, (1), 

@ (x, c) *-Message*"ot 1) (pp), 

Q a--Sim,FC 9^ "P(g, F(e x), 

CD 设 wm eye nm evi 是 在 前 面 的 步骤 中 由 Sim, 所 做 的 对 下 的 询问 。 

© 输出 (pp,xyryayyiyyz，…yi)。 


l. 模拟 安全 的 函数 加 密 的 不 可 能 性 

在 这 里 简要 概述 即使 对 一 个 十 分 简单 的 功能 ,如 对 应 于 IBE 的 功能 ,在 非 规划 随机 预 
言 模型 (non-programmable random oracle model, 也 称 非 线 性 规划 随机 预言 器 模型 ) 下 模拟 
安全 的 函数 加 密 的 不 可 能 性 。 在 非 规划 随机 预言 模型 中 ,模拟 器 仅 可 以 使 用 和 区 分 者 的 预 
言 器 相同 的 随机 预言 器 。 首 先 引 入 一 个 更 弱 的 定义 , 即 弱 模拟 安全 。 

定义 4-36( 弱 模拟 安全 性 ) 一 个 FE 方案 是 弱 模 拟 安全 的 ,如 果 对 任何 (预言 器 ) 
PPT 算法 Message 和 Adv, 存 在 一 个 (预言 器 )PPT 算法 Sim 使 得 下 列 两 个 分 布 样本 (在 安 
全 参数 人 上 ) 是 计算 上 不 可 区 分 的 ， 

CD 实际 分 布 : 

(D (pp mlO 4-setupC1^) 。 

© (Gc. 2) *- MessageC 1) , 

(9 exenc(pp.x). 

® a*- Adveeiike ? (pp. e.) 。 

© 设 yoyo sett sy, 是 在 前 面 的 步骤 中 由 Adv 所 做 的 对 keygen 的 询问 。 

© f xri yo sy) o 

(2) 理想 分 布 : 

(D G0 --MessageC 1). 

Q) a--Sim**? (1*,7,F(e,x)). 

O BE yyy 是 在 前 一 步 中 由 Sim 所 做 的 对 F 的 询问 。 

® 输出 (xz,rayyyyz， yi)。 

关于 模拟 安全 的 函数 加 密 的 不 可 能 性 ,有 如 下 结论 。 

EH 4-120) 设 下 是 关于 了 IBE 的 一 个 功能 , 则 在 非 规划 随机 预言 模型 下 ,对 下 不 存在 
任何 弱 模 拟 安 全 的 FE 方案 。 
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2. 一 个 基于 模拟 安全 的 蛮 力 方案 

现在 考虑 在 随机 预言 模型 下 模拟 安全 的 FE 方案 。 在 随机 预言 模型 下 ,方案 的 算法 以 
及 Message fl Adv 算法 都 可 以 使 用 一 个 随机 预言 器 ,但 是 模拟 算法 能 模仿 随机 预言 器 本 
身 。 人 们 也 将 这 种 标准 的 随机 预言 模型 称 作 全 (full) 随 机 预言 模型 或 规划 的 
(programmable) 随机 预言 模型 。 

下 面 介绍 一 种 修改 的 蛮 力 构造 方法 。 它 与 原 蛮 力 构造 方法 的 主要 差别 是 使 用 随机 预言 
器 随机 地 掩盖 函数 的 输出 值 。 

该 方案 利用 了 一 个 随机 预言 器 Hs {0,1)" (0.1). RAB K 是 多 项 式 尺寸 的 ， 
令 :二 |K| 一 1,K={e,ki,ks，,…,k,}。 使 用 一 个 语义 安全 的 公 钥 加 密 方案 (G,E,D) 实 现 功 
HE F WEJ FE 方案 的 工作 流程 如 下 : 

(1) setupC I) : Xf i— 1.2.7538 1T (pp; mk G0?) . fii H pp= (ppi s pp2 s ,pp;) 
和 mk= (mk; ,mks ,… ,mk,) 。 

(2) keygen(mk.£;) : 输出 sk; =mk;. 

(3) enc(pp,z): 随机 选择 值 ri ,rs,…,r; Ee (0.1)?. Ih e CF aD 4ECppi r2: 
Hr OFC, sx) ECpp; 22 +H Or, OF Ge oe) t Epp or) 4 Hr OF CR 32), 

(4) dec(sk; c): 如 果 sk; =e. fii tH oo; 否则 ,输出 HCODGsk; «eoi Desi. 

关于 上 述 FE 方案 ,有 如 下 结论 。 

定理 413 设 下 是 一 个 揭示 了 功能 的 比特 长 度 的 功能 。 如 果 (G,E,D) 是 一 个 语义 
安全 的 公 钥 加 密 方案 , 则 上 述 实 现下 的 修改 的 蛮 力 FE 方案 在 随机 预言 模型 下 是 模拟 安 
全 的 。 


3 公开 索 引 方 案 的 等 价 安全 性 

下 面 讨 论 任何 具有 公开 索引 的 谓词 加 密 方案 (包括 各 种 形式 的 基于 属性 的 加 密 方案 ) 在 
随机 预言 模型 下 语义 安全 性 和 模拟 安全 性 之 间 的 关系 。 事 实证 明 , 在 随机 预言 模型 下 一 大 
类 公开 索引 方案 的 两 种 安全 性 定义 是 等 价 的 。 

设 8 二 (setup,keygen,enc,dec) 是 一 个 关于 谓词 P;K XI 一 {0,1) 的 具有 公开 索引 的 谓 
词 加 密 方案 ,在 加 密 中 使 用 一 个 随机 预言 器 H 可 把 转化 为 一 个 方案 En = (setup, keygen, 
ency vdecr) ,其 中 : 

(1) encr(pp,(Cind,zz)): 随机 选择 一 个 值 "ER{0.17 ,输出 c= CeneCpp. (ind.r)), H()@m). 

(2) decr(Csk,(clycz)): 如 果 dec(Csk,c) 一 上 ,输出 上 ;否则 ,输出 dec(sk.c) eo. 

关于 上 述 方案 ,有 如 下 结论 。 

EE 4-14 如 果 方 案 & 是 语义 安全 的 , 则 方案 En 在 随机 预言 模型 下 是 模拟 安全 的 。 

上 述 等 价 性 仅仅 应 用 于 公开 索引 方案 ,一 个 有 趣 的 问题 是 能 否 获 得 更 一 般 的 模拟 安全 
的 方案 。 直 观 地 看 ,这 更 具有 挑战 性 ,因为 它 不 是 只 隐藏 一 个 载荷 ,而 是 要 隐藏 一 个 计算 。 
这 里 介绍 一 个 非 公 开 索 引 的 例子 。 

文献 [131,134] 中 提出 的 IBE 方案 (简称 BF 方案 ) 使 用 了 一 个 可 有 效 计算 双 线 性 映射 
e:GXG>Gr 的 群 G, 为 了 简单 起 见 , 假 定 所 有 消息 的 长 度 均 为 4+。 下 面 介绍 一 个 修改 的 BF 
IBE 方案 ,具体 工作 流程 如 下 : 

(1) setup(1*): 选择 一 个 长 度 为 4 的 素数 户 ,产生 一 个 具有 阶 为 p、 生 成 元 为 g 的 双 线 





1 
第 4 章 安全 处 理 技术 151 








PERE G ,选择 一 个 秘密 指数 cEZ, ,定义 Hash PAR T (0.1) * >G A H :Gr>{0, 1) KHE 
型 化 为 随机 预言 器 。 为 简单 起 见 , 假 定 被 加 密 的 消息 的 长 度 均 为 1。 输 出 pp— (GG. T AH 
的 描述 ,gs,g") ,mk 一 a。 

(2) keygen( mk.4) : 输出 ske 王 TCR) 。 

(3) enc(pp.z— ind m) : 选择 随机 值 *ERZo,rER{0,1》 ,计算 y—eCT Gn .g*» = 
eCT Gne) ,g)7 ,输出 e— (0 = gc; HC) 00 |m)。 

(4) decCsk, se): iF $E (€ (0.1)? sz: € (0,117) — HCeCsk, c0) Qe 。 如 果 e, 750^ , Hi 
出 上 ;否则 ,输出 x;。 

关于 上 述 方案 ,有 如 下 结论 。 

EE 4-150) 设 下 是 一 个 匿名 IBE 功能 ,如 果 修 改 的 BF 方案 是 一 个 语义 安全 的 匿名 
IBE 方案 , 则 它 也 是 模拟 安全 的 。 





4.5 外 包 计 算 技术 


外 包 计 算 (outsourced computation) 允许 计 算 资源 受 限 的 用 户 将 计算 复杂 性 较 高 的 计 
算 外 包 给 远 端 的 半 可 信 或 恶意 服务 器 完成 。 云 计算 为 外 包 计 算 提 供 了 一 个 实际 的 应 用 场 
景 。 形 式 地 讲 , 如 果 用 函数 表示 某 个 具体 计算 ,用 户 拥 有 一 个 输入 z 并 希望 得 到 函数 f 
TE x 处 的 值 f(z) ,用户 的 计算 能 力 很 弱 , 因 此 ,用 户 需 要 租赁 具有 和 较 强 计算 能 力 的 服务 器 来 
帮助 完成 计算 ,用 户 先 将 z 发 送 给 服务 器 ,服务 器 计算 出 f(z) 后 , 青 将 f(x) 返回 给 用 户 。 
另外 ,在 很 多 文献 中 提 到 的 委托 计算 (delegating computation) 实 际 上 是 一 种 特殊 的 外 包 计 
算 。 在 外 包 计 算 中 ,用 户 租 赁 具有 强大 计算 能 力 的 服务 商 提供 的 服务 器 进行 计算 ;而 在 委托 
计算 中 ,用 户 委托 一 个 不 被 信任 的 所 谓 的 “工人 ”(worker) 来 进行 计算 。 

外 包 计 算 的 研究 主要 集中 在 用 户 数据 的 安全 性 和 隐私 性 以 及 如 何 验 证 服务 器 返回 结果 
的 正确 性 (也 称 完整 性 ) 上 ,同时 还 要 实现 高 效 性 。4. 1 节 至 4.4 节 介 绍 的 同 态 加 密 、 可 验证 
计算 .安全 多 方 计 算 和 函数 加 密 等 技术 都 是 构造 外 包 计算 的 主要 技术 和 工具 。 关 于 外 包 计 
算 的 研究 进展 可 归纳 为 以 下 几 个 方面 5 ; 

(1) 基于 同 态 加 密 技 术 的 外 包 计算 。 全 同 态 加 密 技 术 是 实现 安全 外 包 计 算 的 一 种 理想 
工具 ,其 基本 原理 是 : 首先 用 户 用 其 加 密 密 钥 pk 和 全 同 态 加 密 算法 Encrypt WE z, 得 到 密 
文 Encrypt(pk,z) 并 将 其 发 送 给 服务 器 ;其 次 ,服务 器 用 Encrypt 的 同 态 性 质 计 算 函 数 f ,得 
到 Encrypt(pk,f(zx)) 并 将 其 返回 给 用 户 ; 最 后 ,用 户 用 其 解密 密 钥 sk 和 解密 算法 Decrypt, 
计算 函数 值 F(z) 王 Decrypt(sk,Encrypt(pk,FCz)))。 在 这 种 外 包 计算 中 ,攻击 者 是 半 诚 实 
的 ,无 法 抵抗 恶意 的 攻击 者 。 由 于 现 有 全 同 态 加 密 技 术 的 实用 性 较 差 ,学 术 界 主要 使 用 加 法 
或 乘法 同 态 加 密 技 术 设 计 外 包 计算 ,相关 工作 有 : Benjamin 等 人 55 使 用 语义 安全 的 加 法 
同 态 加 密 方 案 , 基 于 两 个 服务 器 不 相互 匀 结 的 假设 ,为 线性 代数 计算 (如 两 个 矩阵 的 乘积 ) 构 
造 了 可 验证 安全 外 包 计算 协议 ; Wang 等 人 中 利用 伪装 技术 、 基 于 Jacobi 方法 的 迭代 思想 
和 语义 安全 的 加 法 同 态 加 密 方案 ,为 求解 线性 方程 组 Az 一 5 构造 了 可 验证 安全 外 包 计 算 协 
议 , 这 种 方法 对 A 有 一 定 的 限制 并 只 能 得 到 近似 解 ; Mohassel 分 别 使 用 GM, Paillier、 
ElGamal, BGN/GH V 等 加 法 或 乘法 同 态 加 密 方案 为 矩阵 乘法 、 求 逆 \ 求 行列 式 等 矩阵 上 的 
线性 代数 运算 构造 出 多 个 非 交 互 的 安全 外 包 计 算 协 议 中 ;Kiltz 等 人 中 利用 同 态 加 密 方 
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案 , 为 计算 矩阵 的 秩 和 行列 式 构造 了 安全 的 两 方 计算 协议 ;Peter 等 人 中 使 用 具有 加 法 同 
态 的 双 解 密 机 制 方案 实现 了 人 脸 识 别 的 外 包 计算 协议 。 

(2) 结合 安全 多 方 计算 技术 的 外 包 计 算 。 现 有 安全 多 方 计算 协议 的 计算 和 通信 代价 都 
很 大 ,因此 ,在 基于 安全 多 方 计算 的 外 包 计 算 研 究 中 ,希望 利用 一 些 不 被 信任 的 外 部 服务 器 
来 降低 协议 的 计算 量 和 通信 量 , 相 关 工 作 有 : Kamara 等 人 9 中 使 用 安全 多 方 计算 协议 实现 
了 多 服务 器 的 外 包 计 算 ,充分 利用 了 安全 多 方 计算 协议 的 有 效 性 和 安全 性 ;Loftus HAC 
为 非 门限 的 情形 构造 了 外 包 计算 ,但 这 个 协议 要 求 每 个 计算 服务 提供 者 有 一 个 可 信任 的 硬 
件 ,这 样 做 不 实用 ;Kamara 等 人 中 推 广 了 多 方 计算 的 安全 外 包 计算 协议 的 定义 ,并 构造 了 
几 个 多 方 计算 的 安全 外 包 计 算 协 议 , 证 明了 任意 的 安全 委托 计算 协议 都 可 以 转化 为 一 个 多 
方 计算 的 安全 外 包 计 算 协 议 ;Peter 等 人 中 使 用 加 法 同 态 BCP 方案 ,为 一 般 的 函数 构造 了 
一 个 多 方 计算 的 安全 外 包 计 算 协 议 。 

(3) 结合 属性 加 密 的 外 包 计 算 。 属 性 加 密 (ABE) 是 一 类 特殊 的 函数 加 密 技术 ,结合 
ABE 的 研究 ,学 术 界 提出 了 多 个 外 包 计 算 方案 ,主要 有 : Green 等 人 中 给 出 了 一 个 ABE 外 
包 解 密 方案 ,将 复杂 的 解密 操作 在 服务 器 端 转化 为 一 个 普通 的 ElGamal 解密 问题 ,降低 了 
用 户 端的 解密 计算 量 ;Lai 等 人 9 中 给 出 了 一 个 改进 的 ABE 解密 方案 ,使 其 外 包 解 密 结 果 具 
有 可 验证 性 ;关于 ABE 外 包 计 算 的 其 他 一 些 研究 工作 可 参阅 文献 [168 ,169]。 

(4) 基于 伪装 技术 的 外 包 计算 。 基 于 伪装 (也 称 盲 化 ) 技 术 的 外 包 计算 的 基本 思想 是 : 
利用 伪装 技术 将 原 问 题 转化 为 一 个 随机 问题 ,使 得 用 户 端 敏感 的 1/O 信息 被 隐藏 ,然后 借 
助 服务 器 来 求解 这 个 转化 后 的 随机 问题 ,并 将 计算 结果 返回 给 用 户 端 ,用 户 端 从 收 到 的 结果 
恢复 出 原 问题 的 解 并 可 有 效 验证 。 相 关 工 作 有 : Atallah 等 人 9 提出 了 一 些 适合 矩阵 乘 
法 ,不 等 式 .线性 方程 组 等 科学 计算 的 伪装 技术 ,用 来 确保 外 包 计算 过 程 中 用 户 数据 的 安全 
性 和 隐私 性 ,但 没有 提 及 计算 结果 的 可 验证 性 ; Yerzhan 等 人 05 提 出 了 一 些 新 的 可 验证 的 
伪装 方法 ,解决 了 抽象 方程 . 带 秘 密 参 数 的 柯 西 问题 . 带 秘密 边界 条 件 的 边 值 问题 及 一 些 非 
线性 方程 的 可 验证 外 包 计 算 问 题 ; Atallah Sp AO) 利用 多 项 式 实施 伪装 ,提出 了 基于 
Shamir 秘密 共享 方案 的 安全 外 包 计 算 和 矩阵 乘积 的 协议 ;Du 和 Vaidya 分 别 使 用 伪装 技术 研 
究 了 线性 规划 (Linear Programming. LP) [i] 2 hy 9b 4a i+ & [a] BIO ,但 Bednarz AC) 
指出 这 些 方法 都 存在 正确 性 的 漏洞 ;Mangasarian 将 伪装 技术 与 安全 方法 计算 模型 相 结合 ， 
提出 了 两 个 不 同 的 保持 隐私 性 的 LP 外 包 计 算 方 案 579 ;关于 LP 外 包 计 算 问 题 的 其 他 一 些 
研究 工作 可 参阅 文献 [177,180] 。 

(5) 外 包 计 算 的 可 验证 问题 。 外 包 计 算 的 可 验证 问题 是 指 , 用 户 对 服务 器 返回 的 计算 
结果 的 正确 性 可 进行 验证 。 这 主要 是 为 了 防止 不 可 信服 务 器 的 欺骗 行为 。 外 包 计 算 的 可 验 
证 问题 与 可 验证 计算 技术 密切 相关 。 关 于 外 包 计 算 的 可 验证 问题 的 研究 工作 主要 有 : 
Gennaro 等 人 中 形式 化 定义 了 可 验证 计算 解决 任意 函数 的 可 验证 外 包 计算 问题 ;Benabbas 
等 人 中 提 出 了 对 于 高 阶 多 项 式 函 数 的 实用 的 可 验证 外 包 计 算 方案 ;Parno 等 人 中 给 出 了 
一 种 基于 KP-ABE 方案 构造 的 多 布尔 函数 的 可 验证 计算 方案 ,建立 了 ABE 和 可 验证 函数 
外 包 计 算 之 间 的 关系 。 

(6) 其 他 外 包 计 算 。 除 了 上 述 外 包 计 算 外 ,还 有 一 些 外 包 计算 ,如 计算 模 指数 的 外 包 计 
GEO] 基于 Token 的 外 包 计算 se3s9 ,奖励 性 外 包 计 算 5s 、 委 托 计算 呈 "5390499 。 

外 包 计 算 的 相关 工作 比较 多 ,也 比较 杂 , 关 于 最 新 的 一 些 研究 进展 也 可 参阅 文献 [193] 
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中 的 相关 综述 论文 。 本 节 主 要 介绍 一 个 基于 Shamir fi 8r 3E 5: 7; RO f EDD (Cui EAR 
阵 乘积 的 协议 来 展现 这 类 工作 的 风格 ,主要 取材 于 文献 [172]。 


4.5.1 具有 多 个 服务 器 的 外 包 计 算 方 案 


Shamir 秘密 共享 方案 是 本 节 使 用 的 一 个 基本 工具 ,其 基本 思想 是 : 把 一 个 值 x 分 成 碎 
片 , 即 分 享 ,选择 一 个 上 次 多 项 式 P 使 得 P(0) 一 z, 分 享 是 PG PG em PGS s ns 
a rec, 是 互 不 相同 且 公 开 的 非 零 值 。 这 个 方案 具有 以 下 的 陷 门 共享 特性 : 给 定 :十 1 个 
分 享 ,可 恢复 秘密 xz, 但 给 定 t 个 或 更 少 的 分 享 ,不 可 能 恢复 秘密 +。 我 们 也 称 P 是 值 zx 的 
次 多 项 式 。 

假设 P 和 Q 分 别 是 值 p Ag 的 上 次 多 项 式 , 则 容易 推出 : DP 十 Q@ 是 值 p 十 g 的 1 次 多 
项 式 (从 严格 意义 上 讲 , 此 时 要 求 PHQ 的 最 高 项 系数 非 零 , 但 PHQ 的 最 高 项 系数 为 零 的 
概率 是 可 忽略 的 ,因此 ,在 概率 意义 下 可 不 作 要 求 ); OPQ 是 值 pq 的 21 次 多 项 式 。 

外 包 者 O 有 两 个 矩阵 M' 和 MT? ,他 希望 获得 M'”M'”。 下 面 介绍 的 协议 实际 上 可 以 
计算 任意 大 小 的 矩阵 乘法 ,但 为 了 便于 表示 , 仅 考虑 nXn 矩阵 ,并 设 N= 二 nr。 假定 O 能 完 
成 OG0x) 计 算 , 但 不 能 完成 OG ) 计 算 。 和 矩阵 M 的 第 i 行 第 j 列 元 素 表示 为 Mi ij 0. 
1,…,n 一 1。 设 pp 是 一 个 所 有 参与 方 都 知道 的 大 素数 ,用 PW ,表示 隐藏 值 Mi 的 + 次 多 项 
式 , 即 PH Gr) Sarr! Fara + Fare +My sai(i 二 1,2,…,t) 是 从 2Z * 中 随机 选择 的 ;用 
Pi (zx) 表示 第 i 行 第 j 列 元 素 为 P 名 ,zx) 的 矩阵 。 

现在 介绍 一 个 初级 解决 方案 (也 称 协议 ) ,该 方案 利用 了 2 十 1 个 不 可 信 第 三 方 ,并 假定 
至 多 1 个 参与 方 合谋 。 其 主要 思想 是 ,Q 首先 随机 产生 关于 MUR MT? 的 隐藏 多 项 式 , 然 后 
发 送 每 个 矩阵 的 一 个 分 享 给 每 个 不 可 信 第 三 方 ;第 三 方 计 算 他 们 的 各 个 分 享 的 矩阵 乘法 并 
将 计算 结果 返回 给 0,O 将 插值 计算 这 些 结果 ,获得 两 个 矩阵 的 乘积 。 该 协议 的 具体 工作 流 
程 如 下 。 

协议 4-14 具有 多 个 服务 器 的 外 包 计 算 协 议 。 

CD HERE MO 和 MO? 的 每 一 个 元 素 ,O 产生 一 个 隐藏 该 元 素 的 : 次 多 项 式 , 把 这 些 和 矩 
阵 多 项 式 表示 为 Puts (z) 和 Puts (z); 对 一 1,2,…,2t 十 1,0 把 矩阵 Po, OM Pus (s) 发 
送 给 U,。 

(2) U, 计算 矩阵 RS) 一 Po OPR OF ROE A 0。 

G) 对 所 有 的 ij .O 插值 计算 矩阵 Rij (1) Riy (2),…,Rij t+ DIRE M M) Al 
此 ,O 最 终 获 得 MO M, 

P OR Pos Cs) PFE M? 和 MO 的 分 享 矩 阵 ,两 个 矩阵 的 乘积 是 它们 的 元 素 的 乘 
积 之 和 ,因此 ,分 享 的 矩阵 乘法 是 M MO 的 26 次 多 项 式 。 

在 协议 4-14 中 ,在 第 (1) 步 ,外 包 者 即 客户 完成 O(z?n? ) 个 操作 ,这 是 因为 他 不 得 不 对 
n 个 矩阵 元 素 中 的 每 一 个 都 要 产生 一 个 上 次 多 项 式 , 然 后 不 得 不 在 2 十 1 个 点 上 计算 这 个 
多 项 式 ,每 个 计算 花费 O(0O) 个 操作 。 在 第 (3) 步 ,每 个 插值 花费 的 时 间 为 OC) ,这 样 第 (3) 
步 总 共 需 要 花费 的 时 间 为 OG n). AL. EK EEF n 时 ,这 个 方案 是 可 用 的 。 


4.5.2 具有 两 个 服务 器 的 外 包 计算 方案 
现在 介绍 一 个 将 服务 器 的 个 数 降 到 两 个 的 外 包 计 算 方案 ,这 里 假定 这 两 个 服务 器 不 合 








k 大 数据 安全 与 隐私 保护 


谋 。 这 个 协议 发 送 2 十 1 个 值 中 的 :个 分 享 给 Ui、it+1 个 分 享 给 U,。。 显 然 ,U1 没有 获得 关 
于 和 抢 阵 的 任何 信息 ,但 是 如 果 Us 的 值 以 平凡 的 方式 发 送 , 则 U: 能 插值 计算 这 些 值 获得 甜 
阵 。 为 了 消除 这 个 攻击 , 需 完成 以 下 3 件 事情 : OWM Z; 中 随机 选择 分 享 的 x 坐标 ; @ 需 
隐藏 它们 的 分 享 的 z 坐标 ; @@ 需 增加 噪声 ,以 隐藏 关于 客户 的 矩阵 包含 信息 的 值 。 

1. 弱 秘密 隐藏 假设 

设 U(',1”,p) 是 一 个 均匀 地 从 Z 中 选择 矩阵 元 素 产 生 (2t 十 1) Xm 矩阵 的 分 布 ， 
R(1',1”,p) 是 一 个 以 某 一 结构 从 Z 中 选择 矩阵 元 素 产生 (2t 十 1) Xm 矩阵 的 分 布 。 概 括 地 
讲 , 弱 秘密 隐藏 假设 (Weak Secret Hiding Assumption, WSHA) 是 说 这 两 个 分 布 是 计算 上 
不 可 区 分 的 。 

分 布 RO',1",p) 的 产生 过 程 如 下 : 

CL) 从 Z; 二 Zs\{0} 中 均匀 地 选择 值 hy eo n a MA Zp 中 均匀 地 选择 mt 个 值 , 记 为 
a4, 171,2, ym,j 二 1,2…,t, 用 A 表示 在 第 i 行 第 j 列 的 元 素 为 a;, 的 矩阵 。 

(2) 对 一 1,2,……t 十 1, 按 如 下 方式 计算 矩阵 的 第 ~ 行 (把 这 些 行 称 为 特殊 行 ) : 


[Dats Danskin Danskt] 
(3) XE ret H3, 2-1. Zy 中 均匀 地 选择 m Ae CH CS PERI r 行 (把 这 些 
行 称 为 非特 殊 行 ) 。 
(4) 选择 一 个 集合 {1,2,…',2t 十 1} 上 的 随机 置换 区 ,并 设 最 终 矩 阵 的 第 2 (128 EXER 
(1) 步 至 第 (3) 步 定义 的 矩阵 的 第 IIGO T. 
现在 考虑 下 列 的 游戏 或 实验 WeakHidea (1) 。 
游戏 4-4 WeakHidea(1)。 
CD 挑战 者 随机 均匀 地 选择 5<-{0,1) ,如果 0 一 0, 依 据 分 布 U(1 .1" ,2) 生 成 一 个 随机 
矩阵 ,否则 ,依据 分 布 RO',1”,p) 生 成 一 个 矩阵 ,并 将 这 个 矩阵 发 送 给 敌手 A。 
(2) 敌手 A 输出 一 个 比特 4。 
(3) WE b=0' , 则 WeakHidea G) =1; RW , WeakHidea G) =0. 
定义 4-37 如 果 对 所 有 的 PPT 算法 A,PrLWeakHidea(1) 一 1] 一 二 关 于 + 是 可 忽略 的 ， 
就 说 WSHA 成 立 。 
例 4-1 考虑 R(1?,1?,p)。 
按照 上 述 构造 过 程 ,从 Z; 中 均匀 地 选择 值 &，、ks、k3, 从 Z 中 随机 选择 值 cl 、az,、 
aliasazay* 从 Z 中 随机 选择 4 ME riore irs ri 形 成 矩阵 的 非特 殊 行 。 因 此 ,构造 的 矩阵 
如 下 : 
ariki Haik? aziki + asi 
aink: Taski azık: + asl 


2 2 
ai ks tarzks azık 十 az,2ks 





n r2 


Ts T4 
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如 果 置 换 卫 ={5,3,1,4,2) JU Sc PR By E 
rs Ta 
ayaks +ay2k§ asas +az,2k3 
ariki +aiki asiki aso 
n r2 
aiik Haik} azikz + assi 

WSHA 是 说 对 于 充分 大 的 1, 一 个 PPT 敌手 不 能 区 分 这 些 值 与 随机 选择 的 值 。 

引 理 4-5 ”给 定 一 个 1(1<t 十 1) 个 特殊 行 的 集合 , 则 这 个 集合 被 分 配 的 值 几 乎 等 于 7 个 
随机 行 。 

WEBB. 只 考虑 =e 的 情况 ,1<t 的 情况 容易 由 此 得 出 。 由 R(1',1”",p) 的 产生 过 程 可 
知 , 个 特殊 行 可 表示 为 两 个 矩阵 的 乘积 , 即 4K, 其 中 ,4 是 第 (1) 步 定义 的 矩阵 ,K 是 一 个 
t Xi 矩阵 且 其 第 i SE kiki oki W K 的 行列 式 等 于 ko…k, 与 一 个 关于 as 的 
范 德 门 行列 式 之 积 。 因 为 en et ke 全 不 为 零 ,所 以 LK 可 道 当 且 仅 当 ki ,ks,…,k, 两 两 互 





Ile-a 


不 相同 ,而 K 可 逆 的 概率 为 ux 


Spr 当 + 远 小 于 p 时 ,这 个 概率 几乎 等 于 1。 


对 任何 随机 选择 的 mwXt MEPE M JURE oen ok, 的 任何 选择 ,恰好 存在 一 个 矩阵 


4( 即 4 一 MK-:) 使 得 MM 二 AK。 这 样 ,M 的 任何 选择 与 用 R(1,1",p) 生 成 几乎 具有 同样 的 
概率 ,因此 ,AK 的 分 布 几乎 与 均匀 分 布 一 样 。 

推论 4-2 ”以 一 个 随机 序 给 定 1(1 二 t 十 1) 个 特殊 行 和 1 十 1 一 / 个 非特 殊 行 ,这 个 集合 被 
分 配 的 值 几乎 等 于 均匀 产生 的 (t 十 1) Xm 矩阵。 

证 明 : 由 引 理 4-5 可 知 ,特殊 行 构成 的 集合 被 分 配 的 值 几 乎 等 于 均匀 分 布 。 因 为 其 余 
的 行 ( 即 非特 殊 行 ) 被 均匀 地 生成 ,也 被 均匀 地 分 配 ,因此 ,推论 成 立 。 

2. 具体 方案 

这 里 ,描述 一 个 两 个 服务 器 的 方案 (也 称 协 议 ) 。 

协议 4-15 具有 两 个 服务 器 的 外 包 计 算 协 议 。 

COD 外 包 者 O 选 择 两 个 多 项 式 矩 阵 Pol, DA PR C), MA Z; 中 均匀 地 选择 值 &1， 


MD 
kz s**t skuti o 


(2) OFF (Pio DPR k) ) (PS GO -Po GO) RER Us. 


(3) O 选择 两 个 大 小 为 + 且 元 素 在 Z 上 的 随机 nnXn EERE, B A AtA, 和 
B, .B ,,…,B,, 并 产生 t 十 1 对 矩阵 (PC Gua Puts Oa ,CP Gas Pul Gne) ens 
(PER, Cari) Pots Goa H t XY HEME CA) BD «CA; Be) CA BO 5O 随机 地 置换 这 24+ 
1 对 ,并 将 置换 结果 发 送 给 Us 。 

CA) Uy 和 UU; 分 别 计 算 他 们 收 到 的 所 有 矩阵 对 的 乘积 并 将 计算 结果 返回 给 O。 

(5) OM U, 和 Us 收 到 的 矩阵 中 选择 “好 ?和 矩阵, 即 对 应 于 MO 和 MI? 的 矩阵 ,插值 计 
算 这 些 好 ”矩阵 ,获得 期 望 的 结果 。 
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3. 方案 的 安全 性 

现在 考虑 协议 4-15 的 安全 性 。 首 先 Un 不 能 恢复 矩阵 ,因为 他 只 有 个 点 。U。 要 恢复 
AB IAE fibi AA, 2 十 1 个 矩阵 中 找到 正确 的 包含 上 十 1 个 矩阵 的 子 集 , 有 指数 多 个 这 样 的 子 
集 ,因此 ,做 这 件 事情 的 概率 关于 n 是 可 忽略 的 。 下 面 证 明 , 如 果 WSHA 是 真 的 , 则 协议 4-15 
是 安全 的 。 

用 [zi eas et ,zm](k) 表 示 在 第 i 列 的 值 都 是 xz; BY Om EE, M+ r ,zx2，*… En] OD 
中 的 /常常 略 去 ,默认 为 是 Dm REM WITÉ RA 1”, p) +r ex mns UI TCR 
R(1',1”,p) 产 生 一 个 随机 矩阵 ,然后 与 [zi ore oot ,zj 相 加 ;UGC1,1”,p) 十 [zi x2 tmu] 
表示 类 似 的 含义 。 

51 4-6 ”假定 WSHA WÈ, SE FE fa [a2 x, 12 2 48 RA, 1”, p) Eie 
Lrs En MUA 1” bp) 是 计算 上 不 可 区 分 的 。 

WEBB. 假定 存在 一 个 PPT 算法 D BK Ap R CI 17, p) [ni i22 sin AUA, 17, 
D) BH] Pr[ Dy--gat a" p, inn (M) -1]— Pr[ Dy va a7. (CM) 王 1]| 是 不 可 忽略 的 。 可 
构造 一 个 PPT 区 分 器 D': 使 用 黑 盒 子 访问 D, 可 区 分 RC ,1",p) 和 U(1,1”",p) ,这样 就 
与 WSHA 成 立 矛 盾 。 

D' 的 构造 如 下 : 

CD A ROI”, DR UC. 1". p) ell — RAE M. 

(2) 输出 DOM 十 [zi ,za mm D. 

显然 有 | Pr [D mrap (M) = 1] — Pr [D mua (M) =1] | = | Pr 
[Dura a" pt oxy eer) (M) 1] — PrÉDw- vat an ptus 0D —1]1. BREL — 429] 
选择 的 mod p 值 到 任何 值 将 导致 Z, 中 的 一 个 均匀 值 ,所 以 UAI”, p) + Lay sas ot tn JA 
U(1 1", p) éd AYP AG FLA. | Pr! m-ra amo (MD —1]— PrED' mua ap (M7 D | = 
| PrLDy got amp en enn 1 MD 71] — PrÉDyu- vot a7,5 CM) —1]1. RE. WR D IX AE ROI, 
1". p) - [ai sao t ,xmj 和 U(1,1”",p) 的 概率 是 不 可 忽略 的 , 则 D' DC AE R CI 1". p) 和 
U(1,1”,p) 的 概率 也 是 不 可 忽略 的 ,后 者 与 WSHA 成 立 矛 盾 。 

引 理 4-7 ib VIEW, (M? „MORR O 的 输入 是 MW" MO RZA U, 的 所 有 消 
息 , 则 分 布 VIEWu CM , M? ) 和 依据 分 布 RG, 1. p) + DMS» Mah tH Mos Mine 

2 ,… ,Ms 生成 的 值 的 分 布 是 相同 的 。 

WEBB: 由 协议 4-15 的 构造 过 程 可 知 ,VIEWu CM? ,MY ) 包 含 2 十 1 对 nXn 和 矩阵。 如 
果 把 这 些 矩 阵 中 的 每 对 都 平 放 到 一 个 2N 个 值 的 表 中 ,使 得 每 个 对 对 应 的 ME 的 元 素 在 同 
一 个 位 置 , 则 得 到 一 个 完全 像 在 RO! ,12N 15) HEMS M2 ,… ,MD MB MEO ,MG TR 
一 样 的 (2t 十 1) X2N 和 矩阵。 显然 ,对 应 于 (A,,B,)G 一 1,2,…:,b) 的 行 被 相等 地 分 配给 RI. 
1N, p) HOMI ,M33 Mo Mia MER ,… ,Ms ] 中 的 非特 殊 行 ,这 是 因为 前 者 是 从 Z, 中 
随机 选择 的 值 ,而 后 者 是 从 Z, 中 均匀 选择 的 值 加 上 一 个 值 。 

FHH P k), Pea (0) Gi — tH 1. n 2 十 1) 生 成 的 行 被 相等 地 分 配给 
R(1 1? ,p) 的 特殊 行 。 这 样 的 一 个 行 在 VIEW, (MP MO PRA FIER: Po OD. 
Piy GO ePi GO + Pil, GO Plo GO en Pus GO EIE Z; 。 每 个 多 项 式 Pigo Ck) 
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都 是 一 个 如 下 形式 的 多 项 式 : assu! + MO auus 是 从 Zs 中 均匀 随机 选择 的 。 这 样 ， 
1-1 
这 个 行 可 分 解 成 两 个 向 量 的 和 , 即 V^ HEMS ,… Mis o MIA ,… o Mian V 的 位 置 i \j 的 元 素 
是 Daek , 注意 到 VRAS R O17 ,p) 的 一 个 特殊 行 同样 形式 的 元 素 ,这 样 , 每 个 特 
1-1 
PRAT HE RO! UNS p) + [ME n Mis MIS ,… o Mia JP ESER ORo GU Puts OG) 
的 行 恰 有 同样 的 分 布 。 另 外 ,因为 它们 都 被 随机 地 置换 ,因此 ,分 布 是 相同 的 。 

定理 4-16 ”假定 两 个 服务 器 不 合谋 且 WSH A 成 立 , 则 协议 4-15 是 安全 的 。 

WEBB. 由 引 理 4-7 可 知 ,VIEWu (M™ , MP? ) 被 相等 地 分 配给 尽 (1 1. p) E [Mis 
M323 e Mis Mii ME eH Mindo WII 4-6 可 知 ,这 个 值 和 U(1 1 ,p) 是 计算 上 不 可 
区 分 的 。 这 样 ,VIEWu, CM" . M? ) 和 U(1',1*,p) 是 计算 上 不 可 区 分 的 。 因 此 ,一 个 PPT 
模拟 器 能 简单 地 从 分 布 U(1',1™,p) 中 输出 一 个 随机 和 矩阵, 这样 ,这 个 协议 对 一 个 腐化 Us 
的 敌手 是 安全 的 。 由 引 理 4-5 可 知 ,VIEWu CM? .M® ) 和 Ne 个 随机 选择 的 值 是 不 可 区 分 
的 ,因此 ,这 个 协议 对 一 个 腐化 U 的 敌手 是 安全 的 。 


4.5.8 具有 单一 服务 器 的 外 包 计算 方案 


为 了 实现 具有 单一 服务 器 的 外 包 计算 ,需要 发 送 实际 的 所 有 2t 十 1 个 矩阵 分 享 给 服务 
器 ,因为 在 这 些 信 息 中 有 大 量 的 结构 被 发 送 给 服务 器 ,需要 增加 更 多 的 假 值 。 


l. 强 秘密 隐藏 假设 

先 陈述 一 个 比 WSHA 更 强 的 假设 , 即 强 秘密 隐藏 假设 (Strong Secret Hiding 
Assumption,SSHA)。 特 别 地 ,假定 不 止 t 十 1 个 分 享 发 送 到 单一 的 参与 方 是 可 能 的 ,只 要 
增加 足够 的 噪声 即 可 。 

可 通过 修改 WSHA 的 定义 来 定义 SSHA。 设 U(,1”,1“,p) 是 一 个 均匀 地 从 Z, 中 选 
择 和 矩阵 元 素 产生 (2 十 2e 十 2) Xm 和 矩阵 的 分 布 ,R(1,1”,1',p) 是 一 个 类 似 于 在 WSHA 中 从 
Zs 中 选择 矩阵 元 素 产 生 (2: 十 2e 十 2) Xm 矩阵 的 分 布 ,不 过 此 时 有 1t 十 e 十 1 个 特殊 行 和 + 十 
e 十 1 个 非特 殊 行 。SSHA 假设 是 说 这 两 个 分 布 关 于 上 是 计算 上 不 可 区 分 的 。 

类 似 于 推论 4-2, 任 何 一 个 不 全 是 特殊 行 的 t 十 1 个 行 的 集合 都 几乎 被 相等 地 分 配给 均 
匀 值 。 另 外 ,定理 4-17 表明 一 个 敌手 将 不 可 能 通过 选择 大 小 为 t 十 1 的 随机 子 集 找到 一 个 
包含 :十 1 个 特殊 行 的 集合 。 

定理 4-17 在 一 个 依据 R(1',1”",1°,p) 生 成 的 矩阵 中 ,一 个 包含 1 十 1 个 行 的 随机 集合 
都 是 特殊 行 的 概率 Pr(t) 关 于 +t 是 可 忽略 的 。 
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2. 具体 方案 及 其 安全 性 

先 给 出 一 个 单 服务 器 外 包 计 算 协 议 。 

协议 4-16 具有 单一 服务 器 的 外 包 计 算 协 议 。 

CD O 选择 两 个 多 项 式 和 矩阵 POS (zx) 和 Pu C), M Z; 中 均匀 地 选择 值 e 
as skuti o 

(2) O 选择 两 个 大 小 为 2t 十 1 且 元 素 在 Z 上 的 随机 n Xn EERE, 即 A At 
Asa FI By ,Bs,… Boca ,并 产生 2:7 1 对 矩阵 (PC (局 Pet O0 CP) Che) Po (Ra )) v 
(P^, Gia ,Po (kat1)) 和 21 十 1 XERE CA, BD (Az Bo) e CAssa Bua 5O 随机 地 
置换 这 4: 十 2 对 矩阵 ,并 将 置换 结果 发 送 给 Un 。 

(3) U, 计算 收 到 的 所 有 和 矩阵 对 的 乘积 并 将 计算 结果 返回 给 O。 

(4) O KK U, 收 到 的 矩阵 中 选择 * 好 ?和 矩阵 , 即 对 应 于 M^" MP 的 矩阵 ,插值 计算 这 些 
“好 ”和 矩阵 ,获得 期 望 的 结果 

可 按 类 似 于 两 个 服务 器 的 情况 来 讨论 协议 4-16 的 安全 性 。 基 本 的 思想 是 : VIEWu， 
M? M?) S 4K HESS RA I1 p) MEI M2 st s Main MIS MER enm Mo] 生成 的 
值 的 分 布 是 相等 的 。 像 引 理 4-7 一 样 ,可 证 明 尽 (1 12 1p) HEMI 4M$2 ,… MS ,M3 ， 

M$ ,M3] 和 UC1,1”",1',p) 是 计算 上 不 可 区 分 的 (假定 SSHA 成 立 ) ,这 样 ,假定 
SSHA 成 立 ,VIEWu CM? , M? ) 可 通过 随机 均匀 选择 的 值 来 模拟 。 

最 后 ,简单 介绍 外 包 计算 的 完整 性 验证 问题 ,这 是 一 个 很 重要 的 问题 ,主要 用 于 检测 一 
个 欺骗 服务 器 ,看 它 是 否 完 成 了 所 有 的 计算 或 敌意 地 误导 外 包 者 等 。 上 述 协议 可 提供 一 种 
新 的 完整 性 检测 方法 , 它 主 要 包括 以 下 两 种 观点 : 

CD 为 了 确保 服务 器 的 确 完成 了 计算 ,外 包 者 在 原 协 议 中 选择 一 个 随机 矩阵 对 并 发 送 
给 服务 器 , 记 为 4.B, 外 包 者 对 这 两 个 矩阵 运行 同样 的 协议 , 即 他 对 同样 的 服务 器 外 包 计算 
4B; 把 原 协 议和 新 协议 的 消息 合并 在 一 起 , 即 服务 器 现在 相应 于 MO SM 收 到 2 十 1 个 
对 ,相应 于 A、B 收 到 2 十 1 个 对 ,相应 于 随机 噪声 收 到 4272-2 个 对 ,所 有 这 些 对 被 随机 地 置 
换 ;如 果 这 些 服务 器 关于 积 AB 或 相应 于 4 .有 的 2 十 1 个 对 中 的 任何 对 说 谎 , 则 外 包 者 将 以 
很 高 的 概率 揭穿 服务 器 在 说 谎 (除非 服务 器 猜测 到 正确 的 值 )。 这 样 , 对 于 服务 器 说 谎 所 涉 
及 的 每 个 矩阵 ( 即 它 没有 完成 所 期 望 的 计算 ) ,服务 器 被 揭穿 的 概率 大 于 1/4, 因 此 ,服务 器 
关于 大 部 分 矩阵 对 的 积 的 说 谎 可 被 检测 到 。 

(2) 因为 SSHA 允许 外 包 者 相应 于 M? M? 发 送 不 止 2 十 1 个 对 ,修改 这 个 协议 让 其 
发 送 61 十 1 个 这 样 的 对 ;此 时 ,只 要 这 些 对 中 的 4t 十 1 个 对 被 正确 地 计算 , 则 外 包 者 能 使 用 
错误 纠正 措施 恢复 结果 ,因为 矩阵 中 的 2/3 是 正确 的 。 这 样 ,服务 器 要 欺骗 外 包 者 ,不 得 不 
对 2t 十 1 个 或 更 多 个 矩阵 乘法 说 谎 , 但 联合 使 用 前 面 的 技术 ,服务 器 欺骗 成 功 的 概率 关于 上 
是 可 忽略 的 。 总 之 ,服务 器 现在 收 到 与 M? M? 相应 的 6t 十 1 4 XE. 5 ALB 相应 的 264-1 
个 对 和 与 随机 噪声 相应 的 8: 十 2 个 对 ,外 包 者 和 服务 器 仅 完 成 了 原来 协议 的 4 倍 的 工作 ,但 
这 个 新 的 协议 对 一 个 欺骗 服务 器 是 弹性 的 。 


4.6 itin xd 


本 章 围绕 大 数据 安全 保护 需求 重点 介绍 了 同 态 加 密 、 可 验证 计算 、 安 全 多 方 计算 、 函 数 
加 密 和 外 包 计算 五 大 类 安全 处 理 技术 。 这 些 技术 可 用 于 数据 安全 处 理 的 不 同 环境 中 ,并 可 
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组 合 使 用 。 每 一 类 技术 涉及 的 范围 都 非常 广泛 ,概念 多 ,内 容 新 ,难度 大 ,不 仅 涉 及 各 种 不 同 
的 应 用 ,而 且 也 跨越 了 理论 计算 机 、 代 数 和 密码 学 等 多 个 学 科 分 支 。 用 很 少 的 篇 幅 把 这 些 内 
容 写 清楚 极为 困难 ,不 过 事在人为 ,我 们 采用 “综述 十 精华 十 文献 ”的 策略 试图 来 完成 这 件 
事 , 是 否 有 效 还 得 读者 来 评价 。“ 综 述 ” 就 是 在 介绍 每 一 类 技术 时 都 有 一 段 综 述 ,试图 把 这 类 
技术 当前 的 研究 进展 和 来 龙 去 脉 讲 清楚 ,让 读者 对 这 类 技术 有 一 个 总 体 的 印象 ;精华 ”就 是 
把 这 类 技术 中 最 基础 或 最 经 典 的 工作 选 出 来 ,详细 地 介绍 并 尽量 保持 “ 原 汁 原味 ”, 以 便 读 者 
掌握 这 类 技术 的 基本 概念 、 基 本 思想 和 基本 方法 六 文献 ?就 是 把 重要 的 或 关键 的 文献 列 出 
来 ,以 便 感 兴趣 的 读者 进一步 研读 。 

关于 同 态 加 密 , 支 持 单一 运算 的 同 态 加 密 算 法 的 设计 是 一 件 比 较 容 易 的 事情 ,如 众 所 周 
知 的 RSA 算法 关于 乘法 运算 就 是 同 态 的 ,但 同时 支持 加 法 和 乘法 运算 的 同 态 加 密 算法 ( 即 
全 同 态 加 密 算法 ) 的 设计 就 没 那么 简单 了 ,这 个 问题 从 提出 到 解决 经 历 了 30 多 年 的 历程 ,最 
终 是 由 Gentry 博士 于 2009 年 解决 的 D8'20 。 本 章 用 目前 为 止 最 容易 理解 的 一 个 方案 介绍 了 
Gentry 的 基本 思想 ,主要 取材 于 文献 [22]。Cheon $A 1429 1 LWE 问题 的 困难 性 可 归 
约 到 近似 GCD 问题 的 困难 性 ,并 基于 此 设计 了 一 个 整数 上 的 全 同 态 加 密 方案 ,其 安全 性 仅 
依赖 于 近似 GCD 问题 ,而 不 依赖 于 稀 朴 子 集 和 问题 。 另 外 ,量子 同 态 加 密 和 基于 身份 的 或 
多 身份 的 全 同 态 加 密 可 分 别 参 阅 文献 [196,197]。 

关于 可 验证 计算 ,是 实现 外 包 计 算 的 完整 性 ( 即 正 确 性 ) 的 最 可 靠 的 技术 ,构造 大 多 数 可 
验证 计算 的 基础 是 概率 检测 证 明 。 由 于 可 验证 计算 涉及 零 知 识 证 明和 论证 系统 等 众多 基本 
概念 ,因此 理解 起 来 比较 困难 。 目 前 最 有 代表 性 、 最 有 效 的 可 验证 计算 主要 有 3 类 ,分 别 是 
基于 承诺 的 、 同 态 加 密 的 和 交互 构造 的 。 本 章 从 这 3 类 技术 中 分 别 选择 了 3 个 有 代表 性 的 
工作 进行 了 介绍 ,重点 关注 基本 概念 ,基本 构造 和 重要 结论 ,主要 取材 于 文献 [45,46,49]。 

关于 安全 多 方 计算 ,Yao 给 出 了 第 一 个 安全 两 方 计算 协议 ,Goldreich 等 人 给 出 了 第 
一 个 安全 多 方 计算 协议 [559 ,他 们 都 是 将 计算 函数 表示 为 布尔 电路 ,并 在 半 诚 实 模型 下 提供 
计算 安全 性 ,但 是 Goldreich 等 人 提出 了 一 个 通用 的 编辑 器 ,可 将 任何 在 半 诚 实 模型 下 安全 
的 协议 转换 成 在 恶意 模型 下 安全 的 协议 。 本 章 主 要 介绍 了 安全 多 方 计算 的 基本 定义 、 基 本 
思想 和 基本 定理 ,主要 取材 于 文献 [114.115]。 

关于 函数 加 密 , 近 年 提出 的 很 多 加 密 概 念 ,如 基于 身份 的 加 密 、 基 于 属性 的 加 密 、 隐 藏 向 
量 加 密 以 及 它们 的 一 些 组 合 , 都 可 归结 为 函数 加 密 , 函 数 加 密 是 这 些 加密 概 念 的 一 般 化 。 功 
能 是 函数 加 密 中 的 一 个 重要 概念 ,函数 加 密 的 安全 性 定义 及 其 构造 是 一 个 极 具 挑 战 性 的 问 
题 。 本 章 主 要 介绍 了 函数 加 密 的 基本 概念 、 实 例 、 安 全 性 定义 及 其 基本 构造 ,主要 取材 于 文 
献 [117]。Ananth 等 人 0 提出 了 一 种 黑金 转化 方法 ,在 不 引入 任何 新 的 假设 下 ,可 把 一 个 
选择 安全 的 函数 加 密 方案 转化 为 一 个 适应 性 安全 的 函数 加 密 方案 。Agrawal 等 人 0 站 将 基 
于 身份 的 加 密 、 全 同 态 加 密 、 函 数 加 密 和 多 种 形式 的 混淆 统一 到 一 个 框架 下 进行 定义 ,并 针 
对 这 些 支持 加 密 数 据 计 算 的 方案 提出 了 密码 代理 (cryptographic agents) 的 概念 。 

关于 外 包 计算 ,重点 关注 用 户 数 据 的 安全 性 和 隐私 性 以 及 如 何 验证 服务 器 返回 结果 的 
完整 性 ( 即 正确 性 ), 同 时 还 要 实现 高 效 性 。 本 章 介 绍 的 同 态 加 密 、 可 验证 计算 、 安 全 多 方 计 
算 和 函数 加 密 等 技术 都 是 构造 外 包 计 算 的 主要 技术 和 工具 ,但 外 包 计 算 也 有 其 自身 的 内 涵 ， 
相关 研究 工作 比较 多 ,也 比较 零乱 。 本 章 主要 介绍 了 一 个 基于 Shamir 秘密 共享 方案 的 安全 
外 包 计 算 和 矩阵 乘积 的 协议 来 让 读者 感受 这 类 工作 的 风格 ,其 内 容 主 要 取材 于 文献 [174] 。 
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值得 一 提 的 是 ,本 章 在 体系 框架 设计 上 主要 参考 了 文献 [42] 。 


参考 文献 


Rivest R L, Adleman L,Dertouzos M L. On Data Banks and Privacy Homomorphisms[ J ]. Foundations 
of secure computation, 1978 .4(11) : 169-180. 
Rivest R L, Shamir A, Adleman L. A Method for Obtaining Digital Signatures and Public-Key 
Cryptosystems[ J ]. Communications of the ACM,1978,21(2): 120-126. 
ElGamal T. A Public Key Cryptosystem and a Signature Scheme based on Discrete Logarithms[]J ]. 
IEEE Transactions on Information Theory.1985.31(4) : 469-472. 
Goldwasser S, Micali S. Probabilistic Encryption[ J ]. Journal of Computer and System Sciences, 1984, 
28(2); 270-299. 
Benaloh J. Dense Probabilistic Encryption[ C ]//Proceedings of the 1994 Workshop on Selected Areas 
of Cryptography. Berlin: Springer. 1994; 120-128. 
Fousse L, Lafourcade P, Alnuaimi M. Benaloh's Dense Probabilistic Encryption Revisited [ C ]// 
Progress in Cryptology-Proceeding of the 4th International Conference on Cryptology in Africa 
(AFRICACRYPT). Berlin, Springer. 2011: 348-362. 
Okamoto T, Uchiyama S. A New Public-Key Cryptosystem as Secure as Factoring[ C ]// Advances in 
Cryptology: Proceeding of the 1998 International Conference on the Theory and Applications of 
Cryptographic Techniques (EUROCRYPT). Berlin; Springer,1998; 308-318. 
Naccache D, Stern J. A New Public Key Cryptosystem based on Higher Residues[ C ]//Proceedings of 
the 5th ACM Conference on Computer and Communications Security. New York; ACM,1998; 59-66. 
Paillier P. Public-Key Cryptosystems based on Composite Degree Residuosity Classes[ C ]// Advances 
in Cryptology: Proceeding of the 1999 Annual International Conference on the Theory and 
Applications of Cryptographic Techniques (EUROCRYPT). Berlin; Springer,1999; 223-238. 
Damgard I, Jurik M. A Generalisation, A Simplification and some Applications of 
Paillier’sProbabilistic Public-Key System[ C ]//Proceedings of the 2001 International Conference on 
Practice and Theory in Public Key Cryptography (PKC). Berlin; Springer,2001; 119-136. 
Boneh D,Goh E J, Nissim K. Evaluating 2-DNF Formulas on Ciphertexts[ C ]//Proceedings of the 
2005 Theory of Cryptography Conference( TCC). Berlin; Springer,2005; 325-341. 
Fellows M.Koblitz N. Combinatorial Cryptosystems Galore! [J]. Contemporary Mathematics 1994 , 
168: 51-51. 
Levy-dit-Vehel F,Perret L. A Polly Cracker System based on Satisfiability[ J ]. Coding, Cryptography 
and Combinatorics,2004: 177-192. 
Le VL. Polly Two - A Public-Key Cryptosystem based on Polly Cracker[ D/OL ]. Germany, Bochum; 
Ruhr-University at Bochum. 2002[ 2017-01-11 ]. https: //core. ac. uk/display/14605598. 
Van Ly L. Polly Two: A New Algebraic Polynomial-based Public-Key Scheme[J]. Applicable 
Algebra in Engineering. Communication and Computing.2006.17(3): 267-283. 
Sander T, Young A. Yung M. Non-Interactive Crypto Computing for NC/sup 1[ C ]//Proceeding of 
the 40th Annual Symposium on Foundations of Computer Science (FOCS). Piscataway, NJ: IEEE, 
1999; 554-566. 


Beaver D. Minimal-Latency Secure Function Evaluation[ C ]// Advances in Cryptology: Proceeding of 


1 
第 4 章 ”安全 处 理 技术 16i 








[18] 


[19] 


[20] 


[21] 


[22] 


[23] 


[24] 


[25] 


[26] 


[27] 


[28] 


[29] 


[30] 


[31] 


[32] 








the 2000 Annual International Conference on the Theory and Applications of Cryptographic 
Techniques (EUROCRYPT). Berlin: Springer,2000: 335-350. 

Ishai Y,Paskin A. Evaluating Branching Programs on Encrypted Data[C]//Proceeding of the 2007 
Theory of Cryptography Conference (TCC). Berlin; Springer, 2007 ; 575-594. 

Gentry C. Fully Homomorphic Encryption Using Ideal Lattices[C]//Proceeding of the 2009 ACM 
Symposium on Theory of Computing (STOC). New York: ACM,2009: 169-178. 

Gentry C. A Fully Homomorphic Encryption Scheme[D/OL]. Palo Alto: Stanford University, 2009 
[2017-2-22]. http://www. cs. au. dk/ — stm/local-cache/gentry-thesis. pdf. 

Brakerski Z, Gentry C, Vaikuntanathan V. (Leveled) Fully Homomorphic Encryption without 
Bootstrapping[J]. ACM Transactions on Computation Theory (TOCT) .2014,6(3) : 13. 

Van Dijk M, Gentry C, Halevi S, et al. Fully Homomorphic Encryption over the Integers[ C ]// 
Advances in Cryptology: Proceeding of the 2010 Annual International Conference on the Theory and 
Applications of Cryptographic Techniques EUROCRYPT). Berlin; Springer,2010; 24-43. 

Coron J S, Mandal A, Naccache D, et al. Fully Homomorphic Encryption over the Integers with 
Shorter Public Keys( C]// Advances in Cryptology: Proceeding of the 2011 International Cryptology 
Conference (CRYPTO). Berlin: Springer,2011; 487-504. 

Chen Y, Nguyen P Q. Faster Algorithms for Approximate Common Divisors; Breaking Fully- 
Homomorphic-Encryption Challenges over the Integers[ C ]/ /Advances in Cryptology: Proceeding of 
the 2012 Annual International Conference on the Theory and Applications of Cryptographic 
Techniques (EUROCRYPT). Berlin: Springer,2012,7237: 502-519. 

Coron J S, Naccache D, Tibouchi M. Public Key Compression and Modulus Switching for Fully 
Homomorphic Encryption over the Integers[ C ]// Advances in Cryptology: Proceeding of the 2010 
Annual International Conference on the Theory and Applications of Cryptographic Techniques 
(EUROCRYPT). Berlin: Springer,2012: 446-464. 

Cheon J H Coron J S. Kim J,et al. Batch Fully Homomorphic Encryption over the Integers[ C ]// 
Advances in Cryptology: Proceeding of the 2013 Annual International Conference on the Theory and 
Applications of Cryptographic Techniques EUROCRYPT). Berlin; Springer,2013; 315-335. 
Bogdanov A, Lee C H. Homomorphic Encryption from Codes[ J/OL ]. arXiv preprint arXiv; 1111. 
4301,2011[2017-2-18]. https: //arxiv. org/abs/1111. 4301. 

Brakerski Z, Vaikuntanathan V. Efficient Fully Homomorphic Encryption from (Standard) LWE[J]. 
SIAM Journal on Computing.2014 ,43(2) ; 831-871. 

Brakerski Z, Vaikuntanathan V. Fully Homomorphic Encryption from Ring-LWE and Security for 
Key Dependent Messages [C ]//Advances in Cryptology: Proceeding of the 2011 International 
cryptology conference (CRYPTO). Berlin: Springer,2011: 505-524. 

Brakerski Z,Gentry C, Halevi S. Packed Ciphertexts in LWE-Based Homomorphic Encryption[ C ]// 
Proceeding of the 2013 International Conference on Practice and Theory in Public Key Cryptography 
(PKC). Berlin; Springer,2013; 1-13. 

Gentry C,Sahai A, Waters B. Homomorphic Encryption from Learning with Errors; Conceptually- 
Simpler, Asymptotically-Faster, Attribute-based[ C ]// Advances in Cryptology-Proceeding of the 2013 
International Cryptology Conference (CRYPTO). Berlin: Springer.2013: 75-92. 

Brakerski Z. Fully Homomorphic Encryption without Modulus Switching from Classical GapSVP 
[Cj]//Advances in Cryptology-Proceeding of the 2012 International Cryptology Conference 
(CRYPTO). Berlin: Springer,2012; 868-886. 


大 数据 安全 与 隐私 保护 








[33] 


[34] 


[35] 


[36] 


[37] 


[43] 


[44] 


[45] 


[46] 


[47] 


[48] 


[49] 





[50] 





Smart N P; Vercauteren F. Fully Homomorphic Encryption with Relatively Small Key and Ciphertext 
Sizes[ C ]//Proceeding of the 2010 International Conference on Practice and Theory in Public Key 
Cryptography (PKC). Berlin; Springer,2010: 420-443. 

Gentry C, Halevi S. Fully Homomorphic Encryption without Squashing Using Depth-3 Arithmetic 
Circuits[ C ]//Proceeding of the 2011 IEEE 52nd Annual Symposium on Foundations of Computer 
Science (FOCS). Piscataway. NJ: IEEE.2011: 107-109. 

Gentry C, Halevi S. Implementing Gentry's Fully-Homomorphic Encryption Scheme[ C]// Advances 
in Cryptology; Proceeding of the 2011 Annual International Conference on the Theory and 
Applications of Cryptographic Techniques (EUROCRYPT). Berlin; Springer,2011; 129-148. 

Stehlé D, Steinfeld R. Faster Fully Homomorphic Encryption [ C ]//Advances in Cryptology - 
Proceeding of the 2010 International Conference on the Theory and Application of Cryptology and 
Information Security (ASIACRYPT). Berlin: Springer.2010; 377-394. 

Halevi S,Shoup V. An Implementation of Homomorphic Encryption[ J/OL ]. GitHub Repository. 
(2018-3-26). https: //github. com/shaih/HElib. 

J-S. Coron, Survey of Existing SHE Schemes and Cryptanalytic Techniques[ EB/OL ]. (2015-1-1). 
https: //heat-project. eu/documents/D2-1. pdf. 

中 国 密码 学 会 组 编 . 中 国 密码 学 发 展 报告 2010 M]. 北京 : 电子 工业 出 版 社 ,2011. 

中 国 密码 学 会 组 编 . 中 国 密码 学 发 展 报告 2012[M]. 北京 : 电子 工业 出 版 社 ,2014. 

中 国 科 学 技术 协会 主编 ,中 国 密码 学 会 编著 . 密码 学 学 科 发 展 报告 (2014-2015)[LM]J. 北京 : 中 国 科 
学 技术 出 版 社 ,2016. 

Hamlin A, Schear N, Shen E. et al. Cryptography for Big Data Security[ M]//Big Data: Storage, 
Sharing ,and Security (3S) , Boca Raton; CRC Press,2016; 241-288. 

Arora S,Safra S. Probabilistic Checking of Proofs; A New Characterization of NP[J]. Journal of the 
ACM (JACM) ,1998,45(1) : 70-122. 

Arora S, Barak B. Computational Complexity: A Modern Approach[ M ]. Cambridge: Cambridge 
University Press,2009. 

Kilian J. A Note on Efficient Zero-Knowledge Proofs and Arguments( C ]//Proceedings of the 24th 
Annual ACM Symposium on Theory of Computing (STOC). New York; ACM,1992; 723-732. 
Ishai Y , Kushilevitz E,Ostrovsky R. Efficient Arguments without Short PCPs C ]//Proceeding of the 
22nd Annual IEEE Conference on Computational Complexity (CCC). Piscataway, NJ: IEEE, 2007: 
278-291. 

Ben-Sasson E, Chiesa A,Genkin D, et al. SNARKs for C; Verifying Program Executions Succinctly 
and in Zero Knowledge [C ]//Advances in Cryptology: Proceeding of the 2013 International 
cryptology conference (CRYPTO). Berlin: Springer,2013 : 90-108. 

Bitansky N, Chiesa A, Ishai Y, et al. Succinct Non-Interactive Arguments via Linear Interactive 
Proofs[ C]//Proceedings of thel0th Theory of Cryptography Conference (TCC). Berlin: Springer, 
2013; 315-333. 

Goldwasser S, Kalai Y T, Rothblum G N. Delegating Computation; Interactive Proofs for Muggles 
[C]//Proceedings of the 40th Annual ACM Symposium on Theory of Computing (STOC). New 
York: ACM.2008: 113-122. 

Cormode G, Mitzenmacher M. Thaler J. Practical Verified Computation with Streaming Interactive 
Proofs[ C ]//Proceedings of the 3rd Innovations in Theoretical Computer Science Conference. New 
York; ACM, 2012; 90-112. 


1 
第 4 章 ”安全 处 理 技术 198 





[51] 


[52] 


[53] 


[54] 


[59] 


[60] 


[61] 


[62] 


[63] 


[64] 


[65] 


[66] 








[67] 





Walfish M, Blumberg A J. Verifying Computations without Reexecuting Them[ ] ]. Communications 
of the ACM.2015,58(2) : 74-84. 

Parno B, Howell J, Gentry C, et al. Pinocchio: Nearly Practical Verifiable Computation [ C ]// 
Proceedings of the 2013 IEEE Symposium on Security and Privacy (SP). Piscataway, NJ: IEEE, 
2013: 238-252. 

Babai L, Fortnow L, Levin L A, et al. Checking Computations in Polylogarithmic Time [ C ]// 
Proceedings of the 23rd Annual ACM Symposium on Theory of Computing (STOC). New York: 
ACM, 1991; 21-32. 

Boyar J F, Kurtz S A, Krentel M W. A Discrete Logarithm Implementation of Perfect Zero- 
Knowledge Blobs[ J ]. Journal of Cryptology,1990,2(2): 63-76. 

Blum M, Luby M, Rubinfeld R. Self-Testing/Correcting with Applications to Numerical Problems 
[C]//Proceedings of the 22nd Annual ACM Symposium on Theory of Computing (STOC). New 
York; ACM,1990; 73-83. 

Ta-Shma A. A note on PCP vs. MIP[J]. Information Processing Letters, 1996 ,58(3): 135-140. 

Yao A C C. How to Generate and Exchange Secrets[ C ]/ /Proceeding of the 27th Annual Symposium 
on Foundations of Computer Science (FOCS). Piscataway, NJ: IEEE,1986: 162-167. 

Goldreich O. How to Play any Mental Game or a Completeness Theorem for Protocols with Honest 
Majority[ C]//Proceedings of the 1987 Annual ACM Symposium on Theory of Computing (STOC). 
New York: ACM,1987; 218-229. 

Ben-Or M, Goldwasser S. Wigderson A. Completeness Theorems for Non-Cryptographic Fault- 
Tolerant Distributed Computation[ C ]/ /Proceedings of the 20th Annual ACM Symposium on Theory 
of Computing (STOC). New York: ACM,1988; 1-10. 

Chaum D, Crépeau C, Damgard I. Multiparty Unconditionally Secure Protocols[ C ]//Proceedings of 
the 20th Annual ACM Symposium on Theory of Computing (STOC). New York: ACM,1988; 11- 
19. 

Lindell Y,Pinkas B. Secure Two-Party Computation via Cut-and-Choose Oblivious Transfer [J]. 
Journal of Cryptology,2012,25(4); 680-722. 

Lindell Y. Fast Cut-and-Choose-based Protocols for Malicious and Covert Adversaries[ J ]. Journal of 
Cryptology, 2016,29(2); 456-490. 

Nielsen J B. Nordholt P S. Orlandi C,et al. A New Approach to Practical Active-Secure Two-Party 
Computation [ C ]//Advances in Cryptology: Proceeding of the 2012 International Cryptology 
Conference (CRYPTO). Berlin: Springer,2012: 681-700. 

Frederiksen T K, Jakobsen T P, Nielsen J B.et al. Minilego: Efficient Secure Two-Party Computation 
from General Assumptions [ C ]//Advances in Cryptology: Proceeding of the 2013 Annual 
International Conference on the Theory and Applications of Cryptographic Techniques 
(EUROCRYPT). Berlin: Springer,2013: 537-556. 

Naor M, Pinkas B, Sumner R. Privacy Preserving Auctions and Mechanism Design[ C ]//Proceedings 
of the 1st ACM conference on Electronic commerce. New York: ACM,1999; 129-139. 

Pinkas B, Schneider T, Smart N P,et al. Secure Two-Party Computation Is Practical[ C ]// Advances 
in Cryptology: Proceeding of the 2009 Annual International Conference on the Theory 
andApplication of Cryptology and Information Security (ASIACRYPT). 2009.9; 250-267. 
Kolesnikov V, Schneider T. Improved Garbled Circuit; Free XOR Gates and Applications [ J ]. 
Automata, Languages and Programming,2008; 486-498. 


大 数据 安全 与 隐私 保护 








[68] 


[69] 


[70] 


[71] 


[72] 


[73] 


[74] 


[75] 


[76] 


[77] 


[78] 


[79] 


[80] 


[81] 


[82] 


[83] 








Applebaum B. Garbling XOR Gates “for Free” in the Standard Model[ J ]. Journal of Cryptology, 
2016,29(3) : 552-576. 

Kolesnikov V,Mohassel P, Rosulek M. FleXOR Flexible Garbling for XOR Gates that Beats Free 
XOR[C ]//Advances in Cryptology: Proceeding of the 2014 International Cryptology Conference 
(CRYPTO). Berlin: Springer,2014: 440-457. 

Zahur S,Rosulek M, Evans D. Two Halves Make a Whole: Reducing Data Transfer in Garbled 
Circuits using Half Gates[ C]// Advances in Cryptology: Proceeding of the 2015 Annual International 
Conference on the Theory and Applications of Cryptographic Techniques ( EUROCRYPT). Berlin; 
Springer,2015; 220-250. 

Lindell Y, Pinkas B. Smart N P. Implementing Two-Party Computation Efficiently with Security 
Against Malicious Adversaries[ C ]//Proceeding of the 2008 International Conference on Security and 
Cryptography for Networks. Berlin: Springer,2008: 2-20. 

Shen C. Fast Two-Party Secure Computation with Minimal Assumptions [ C ]//Proceedings of the 
2013 ACM SIGSAC Conference on Computer &-Communications Security. New York: ACM, 2013; 
523-534. 

Bellare M. Hoang V T, Keelveedhi S, et al. Efficient Garbling from a Fixed-Key Blockcipher[ C ]// 
Proceedings of the 2013 IEEE Symposium on Security and Privacy (SP). Piscataway, NJ: IEEE, 
2013; 478-492. 

Huang Y, Evans D. Katz J,et al. Faster Secure Two-Party Computation Using Garbled Circuits[ C]// 
Proceedings of the 2011 USENIX Security Symposium. Berkeley: USENIX Association, 2011; 35- 
35. 

Rabin T,Ben-Or M. Veriable Secret Sharing and Multiparty Protocols with Honest Majority[ C ]// 
Proceedings of the 1989 ACM Symposium on Theory of Computing (STOC). New York; ACM, 
1989: 73-85. 

Beaver D. Secure Multiparty Protocols and Zero-Knowledge Proof Systems Tolerating a Faulty 
Minority J ). Journal of Cryptology,1991,4(2): 75-122. 

Bendlin R, Damgård I, Orlandi C, et al. Semi-Homomorphic Encryption and Multiparty Computation 
[C]//Proceedings of the 2011 European Cryptology Conference EUROCRYPT). Berlin; Springer, 
2011; 169-188. 

Damgård I. Pastro V. Smart N, et al. Multiparty Computation from somewhat homomorphic 
Encryption[ C ]//Proceedings of the International Cryptology Conference. Berlin; Springer, 2012; 
643-662. 

Malkhi D. Nisan N, Pinkas B. et al. Fairplay—A Secure Two-Party Computation System [C ]// 
Proceedings of the USENIX Security Symposium. Berkeley: USENIX Association.2004; 287-302. 
Henecka W, Sadeghi A R, Schneider T. et al. TASTY: Tool for Automating Secure Two-Party 
Computations C ]//Proceedings of the 17th ACM Conference on Computer and Communications 
Security(CCS). New York; ACM,2010; 451-462. 

Y. Huang, D. Evans, J. Katz, et al. Faster Secure Two-Party Computation Using Garbled Circuits 
[C]//Proceedings of the USENIX Security Symposium. Berkeley: USENIX Association, 2011: 35- 
35. 

Kreuter B, Shelat A, Shen C H. Billion-Gate Secure Computationwith Malicious Adversaries[ C ]// 
Proceedings of the USENIX Security Symposium. Berkeley; USENIX Association,2012; 85-300. 
Holzer A, Franz M, Katzenbeisser S. et al. Secure two-party computations in ANSI C[C]// 


1 
第 4 章 安全 处 理 技术 1$ 








[84] 


[85] 


[86] 


[87] 


[88] 


[89] 


[90] 


[91] 


[92] 


[93] 


[94] 


[95] 


[96] 


[97] 


[98] 








Proceedings of the 2012 ACM Conference on Computer and Communications Security (CCS). New 
York: ACM,2012: 772-783. 

Kreuter B,Shelat A, Mood B,et al. PCF; A Portable Circuit Format for Scalable Two-Party Secure 
Computation [ C ]//Proceedings of the USENIX Security Symposium. Berkeley; USENIX 
Association, 2013: 321-336. 

Songhori E M, Hussain S U, Sadeghi A R, et al. TinyGarble: Highly Compressed and Scalable 
Sequential Garbled Circuits[ C]//Proceedings of the 2015 IEEE Symposium on Security and Privacy. 
Piscataway, NJ: IEEE,2015; 411-428. 

Liu C,Huang Y, Shi E, et al. Automating Efficient RAM-Model Secure Computation [ C ]// 
Proceedings of the 2014 IEEE Symposium on Security and Privacy. Piscataway, NJ: IEEE, 2014: 
623-638. 

Liu C, Wang X S. Nayak K, et al. ObliVM: AProgramming Framework for Secure Computation 
[C]//Proceedings of the 2015 IEEE Symposium on Security and Privacy. Piscataway, NJ: IEEE, 
2015; 359-376. 

Rastogi A, Hammer M A, Hicks M. Wysteria: A Programming Language for Generic, Mixed-Mode 
Multiparty Computations[ C ]//Proceedings of the 2014 IEEE Symposium on Security and Privacy 
(SP). Piscataway, NJ: IEEE,2014; 655-670. 

Ben-David A, Nisan N, Pinkas B. FairplayMP; A System for Secure Multi-Party Computation[ C ]// 
Proceedings of the ACM Conference on Computer and Communications Security CCS). New York: 
ACM, 2008; 257-266. 

Cohen G, Damgård I B, Ishai Y, et al. Efficient Multiparty Protocols via Log-Depth Threshold 
Formulae[ C]//Proceedings of the Cryptology. Berlin: Springer,2013; 185-202. 

Asharov G, Lindell Y , Schneider T,et al. More Efficient Oblivious Transfer and Extensions for Faster 
Secure Computation [ C ]//Proceedings of the 2013 ACM SIGSAC conference on Computer & 
communications security. New York: ACM,2013; 535-548. 

Damgård I, Geisler M. Kroigaard M, et al. Asynchronous Multiparty Computation: Theory and 
Implementation[ C ]//Proceedings of the Public Key Cryptography ( PKC). Berlin; Springer, 2009; 
160-179. 

Burkhart M, Strasser M, Many D, et al. SEPIA; Privacy-Preserving Aggregation of Multi-Domain 
Network Events and Statistics[ J J. Network.2010,1: 101101. 

Choi S G, Hwang K W, Katz J, et al. Secure Multi-Party Computation of Boolean Circuits with 
Applications to Privacy in On-Line Marketplaces. [ C ]//Proceedings of the RSA Conference, 
Cryptographers’ Track. Berlin: Springer,2012: 416-432. 

Bogdanov D. Laur S. Willemson J. Sharemind: A Framework for Fast Privacy-Preserving 
Computations[ J ]. Computer Security-ESORICS 2008,2008: 192-206. 

Zhang Y. Steele A, Blanton M. PICCO: A General-Purpose Compilerfor Private Distributed 
Computation[ C ]//Proceedings of the ACM Conference on Computer and Communications Security 
(CCS). New York: ACM,2013; 813-826. 

Goyal V.Ishai Y.Sahai A,et al. Founding Cryptography on Tamper-Proof Hardware Tokens[ C ]// 
Proceedings of the Theory of Cryptography Conference. Berlin: Springer,2010: 308-326. 

Brzuska C, Fischlin M. Schroder H, et al. Physically Uncloneable Functions in the Universal 
Composition Framework[ C ]/ /Proceedings of International Cryptology Conference. Berlin; Springer, 
2011; 51-70. 


ke 


大 数据 安全 与 隐私 保护 








[100] 


[101] 


[102] 


[103] 


[104] 


[105] 


[106] 


[107] 


[108] 


[109] 


[110] 


[111] 


[112] 


114 
115 
116 


[117] 


[113] 








[99] Ostrovsky R, Scafuro A, Visconti I, et al. Universally Composable Secure Computation with 


( Malicious) Physically Uncloneable Functions [ C ]//Proceedings of the European Cryptology 
Conference. Berlin; Springer,2013; 702-718. 

Damgård I, Scafuro A. Unconditionally Secure and Universally Composable Commitments from 
Physical Assumptions[C]//Proceedings of the Advances in Cryptology-ASIACRYPT 2013. Berlin: 
Springer,2013: 100-119. 

Canetti R,Lin H, Pass R, et al. Adaptive Hardness and Composable Security in the Plain Model 
from Standard Assumptions[C]//Proceedings of the Foundations of Computer Science (FOCS). 
Piscataway, NJ: IEEE,2010: 541-550. 

Garg S, Goyal V, Jain A, et al. Concurrently Secure Computation in Constant Rounds [ C ]// 
Proceedings of the Advances in Cryptology-EUROCRYPT 2012. Berlin: Springer.2012: 99-116. 
Agrawal S,Goyal V, Jain A,et al. New Impossibility Results for Concurrent Composition and a 
Non-Interactive Completeness Theorem for Secure Computation[ C ]//Proceedings of the Advances 
in Cryptology-CRYPTO 2012. Berlin; Springer,2012; 443-460. 

Garg S, Kumarasubramanian A, Ostrovsky R, et al. Impossibility Results for Static Input Secure 
Computation[ C ]/ /Proceedings of the Cryptology-CRYPTO 2012. Berlin: Springer,2012: 424-442. 
Garg S, Goyal V, Jain A, et al. Concurrently Secure Computation in Constant Rounds [C ]// 
Proceedings of the Cryptology-EUROCRYPT 2012. Berlin; Springer,2012; 99-116. 

Goyal V, Jain A. On Concurrently Secure Computation in the Multiple Ideal Query Model [ C]// 
Proceedings of the Cryptology-EUROCRYPT 2013. Berlin: Springer,2013: 684-701. 

Damgard I, Faust S, Mukherjee P, et al. Bounded Tamper Resilience: How to Gobeyond the 
Algebraic Barrier[ C ]//Proceedings of the Cryptology-ASIACRYPT 2013. Berlin: Springer, 2013: 
140-160. 

Bitansky N, Canetti R, Halevi S. Leakage-Tolerant Interactive Protocols[ C ]//Proceedings of the 
Theory of Cryptography. Berlin: Springer.2012: 266-284. 

Bitansky N, Dachmansoled D. Lin H. Leakage-Tolerant Computation with Input-Independent 
Preprocessing[ C ]//Proceedings of the Advances in Cryptology-CRYPTO 2014. Berlin; Springer, 
2014; 146-163. 

Boyle E, Goldwasser S, Jain A,et al. Multiparty Computation Secure Against Continual Memory 
Leakage[ C ]//Proceedings of the ACM Symposium on Theory of Computing. New York: ACM, 
2012; 1235-1254. 

Bendlin R, Damgard I, Orlandi C,et al. Semi- Homomorphic Encryption and Multiparty Computation 
[C]//Proceedings of the Cryptology- EUROCRYPT 2011. Berlin: Springer,2011; 169-188. 
Damgard I, Pastro V. Smart N P, et al. Multiparty Computation from somewhat Homomorphic 
Encryption[ C]// Proceedings of the Cryptology-CRYPTO 2012. Berlin: Springer,2012: 643-662. 

Damgard I. Zakarias S. Constant-Overhead Secure Computation of Boolean Circuits Using 

Preprocessing[ C ]/ /Proceedings of the Theory of Cryptography. Berlin: Springer,2013; 621-641. 
Goldreich O. Foundations of Cryptography. Volume II , Basic Applications .2001. 

冯 登 国 . 安全 协议 一 一 理论 与 实践 CMJ. 北京: 清华 大 学 出 版 社 ,2011. 

Sahai A. Waters B. Fuzzy Identity-based Encryption [ C ]//Proceedings of the Cryptology - 
EUROCRYPT 2005. Berlin: Springer.2005: 457-473. 

Boneh D, Sahai A, Waters B. Functional Encryption: Definitions and Challenges [ C ]//Proceedings 
of the Theory of Cryptography. Berlin; Springer,2011; 253-273. 


1 
第 4 章 安全 处 理 技术 18] 








[118] 


[119] 


[120] 


[121] 


[122] 


[123] 


[124] 


[125] 


[126] 


[127] 


[128] 


[129] 


[130] 


[131] 


[132] 


[133] 


[134] 


[135] 





[136] 





O'Neill A. Definitional Issues in Functional Encryption [J]. Cryptology Eprint Archive Report. 
(2011-3-18). https: //eprint. iacr. org/2010/556. pdf. 

Agrawal S, Gorbunov S, Vaikuntanathan V,et al. Functional encryption; New Perspectives and 
lower Bounds[ C]//Proceedings of the Cryptology-CRYPTO 2013. Berlin; Springer,2013; 500-518. 
Caro A D,lovino V.Jain A,et al. On the Achievability of Simulation-based Security for Functional 
Encryption[ C ]// Proceedings of the Cryptology-CRYPTO 2013. Berlin: Springer,2013: 519-535. 
Sahai A, Seyalioglu H. Worry-free Encryption: Functional Encryption with Public Keys[ C ]// 
Proceedings of the ACM Conference on Computer and Communications Security, CCS 2010. New 
York: ACM,2010; 463-472. 

Goldwasser S, Kalai Y T. Popa R A, et al. Reusable Garbled Circuits and Succinct Functional 
Encryption[ C ]//Proceedings of the ACM Symposium on Theory of Computing Conference. New 
York: ACM,2013; 555-564. 

Gorbunov S, Vaikuntanathan V, Wee H. Functional Encryption with Bounded Collusions via Multi- 
Party Computation [ C ]//Proceedings of the Cryptology-CRYPTO 2012. Berlin; Springer, 2012; 
162-179. 

Naveed M, Agrawal S. Prabhakaran M. et al. Controlled Functional Encryption[ C ]//Proceedings of 
the ACM SIGSAC Conference on Computer and Communications Security. New York; ACM,2014; 
1280-1291. 

Garg S,Gentry C, Halevi S,et al. Waters. Candidate Indistinguishability Obfuscation and Functional 
Encryption for All Circuits [C]//Proceedings of IEEE Symposium on Foundations of Computer 
Science, FOCS’2013. Piscataway, NJ: IEEE,2013: 40-49. 

Garg S,Gentry C, Halevi S, et al. Fully Secure Functional Encryption without Obfuscation, IACR 
Cryptology ePrint Archive,2014; 666. 

Boneh D, Waters B. Conjunctive, Subset and Range Queries on Encrypted Data[ C ]/ /Proceedings of 
the Theory of Cryptography Conference. Berlin: Springer.2007: 535-554. 

Katz J,Sahai A, Waters B. Predicate Encryption Supporting Disjunctions, Polynomial Equations and 
Inner Products C ]//Proceedings of the Cryptology - EUROCRYPT 2008. Berlin; Springer, 2008; 
146-162. 

Shamir A. Identity-based Cryptosystems and Signature Schemes[ C ]//Proceedings of International 
Cryptology Conference. Berlin: Springer,1984: 47-53. 

Sahai A, Waters B. Fuzzy ldentity-based Encryption [ C ]//Proceedings of the 24th Annual 
International Conference on Advances in Cryptology-Eurocrypt. Berlin: Springer,2005: 457-473. 
Boneh D, Franklin M K. Identity-based Encryption from the Weil Pairing [ C ]//Proceedings of 
International Cryptology Conference. Berlin: Springer.2001: 213-229. 
Cocks C. An Identity based Encryption Scheme based on Quadratic Residues J]. Lecture Notes in 
Computer Science,2001: 360-363. 
Canetti R, Halevi S, Katz J. A Forward-Secure Public-Key Encryption Scheme[ C ]//Proceedings of 
the EUROCRYPT 2003. Berlin; Springer,2003; 255-271. 
Boneh D, Boyen X. Efficient Selective-Id Secure Identity-based Encryption without Random Oracles 
[C]//Proceedings of the EUROCRYPT 2004. Berlin: Springer.2004: 223-238. 
Boneh D, Boyen X. Secure Identity based Encryption without Random Oracles[ C ]/ / Proceedings of 
the CRYPTO 2004. Berlin; Springer,2004: 443-459. 

Waters B. Efficient Identity-based Encryption without Random Oracles[ C ]//Proceedings of the 








大 数据 安全 与 隐私 保护 








[137] 


[138] 


[139] 


[140] 


[141] 


[142] 


[143] 


[144] 


[145] 


[146] 


[147] 


[148] 


[149] 


[150] 


[151] 





EUROCRYPT 2006. Berlin: Springer.2005: 114-127. 

Gentry C. Practical Identity-based Encryption without Random Oracles[ C ]//Proceedings of the 
25th Annual International Conference on Advances in Cryptology-eurocrypt. Berlin; Springer,2006; 
445-464. 

Gentry C, Peikert C, Vaikuntanathan V. Trapdoors for Hard Lattices and New Cryptographic 
Constructions[ C ]//Proceedings of the 40th Annual ACM Symposium on Theory of Computing. 
New York: ACM. 2008: 197-206. 

Cash D, Hofheinz D, Kiltz E, et al. Bonsai Trees, or How to Delegate a Lattice Basis[ C ]// 
Proceedings of the 29th Annual International Conference on Advances in Cryptology-eurocrypt. 
Berlin: Springer.2010: 523-552. 

Agrawal S,Dan B, Boyen X. Efficient Lattice (h) IBE in the Standard Model[ C]/ / Proceedings of the 
29th Annual International Conference on Advances in Cryptology-eurocrypt. Berlin: Springer, 553- 
572,2010. 

Goyal V, Pandey O, Sahai A,et al. Attribute-based Encryption for Fine-Grained Access Control of 
Encrypted Data[ C]/ /Proceedings of the 13th ACM Conference on Computer and Communications 
Security. New York: ACM,2006: 89-98. 

Bethencourt J,Sahai A, Waters B. Ciphertext-Policy Attribute-based Encryption[ C ]//Proceedings 
of the 2007 IEEE Symposium on Security and Privacy. Piscataway, NJ: IEEE ,2007: 321-334. 
Goyal V, Jain A, Pandey O, et al. Bounded Ciphertext Policy Attributebased Encryption [ C ]// 
Proceedings of the Automata, Languages and Programming, 35th International Colloquium, Part II. 
Berlin: Springer,2008: 579-591. 

Waters B. Ciphertext-Policy Attribute-based Encryption; An Expressive, Efficient, and Provably 
Secure Realization[C]//Proceedings of the 14th International Conference on Practice and Theory in 
Public Key Cryptography. Berlin: Springer,2011: 53-70. 

Okamoto T,Okamoto T. Takashima K, et al. Fully Secure Functional Encryption: Attribute-based 
Encryption and (Hierarchical) Inner Product Encryption [ C ]//Proceedings of the 29th Annual 
International Conference on Advances in Cryptology-eurocrypt. Berlin; Springer. 2010; 62-91. 
Boneh D, Crescenzo G D, Ostrovsky R, et al. Public Key Encryption with Keyword Search[ C ]// 
Proceedings of the 23th Annual International Conference on Advances in Cryptology-eurocrypt. 
Berlin: Springer. 2004: 506-522. 

Abdalla M, Bellare M,Catalano D, et al. Searchable Encryption Revisited; Consistency Properties, 
Relation to Anonymous ibe,and Extensions[J ]. Journal of Cryptology,2008,21(3); 350-391. 
Boyen X, Waters B, Anonymous Hierarchical Identity-based Encryption (without Random Oracles) 
[C]//Proceedings of the 26th Annual International Cryptology Conference. Berlin: Springer. 2006: 
290-307. 

Delerablée C. Identity-based Broadcast Encryption with Constant Size Ciphertexts and Private Keys 
[c] 
Berlin; Springer,2007; 200-215. 

Delerablée C, Paillier P, Pointcheval D. Fully Collusion Secure Dynamic Broadcast Encryption with 


/ / Proceedings of the 13th International Conference on Advances in Cryptology- ASIACRYPT. 





Constant-Size Ciphertexts or Decryption Keys[ C]//Proceedings of the Pairing-Based Cryptography 
- Pairing 2007. Berlin: Springer.2007: 39-59. 

Sakai R, Furukawa J. Identity-based Broadcast Encryption[ JVOL ]. IACR Cryptology ePrint Archive 
2007[2017-2-18 ]. http: //eprint. iacr. org/2007/217. 








[152] 


[153] 


[154] 


[155] 


[156] 


[159] 


[160] 


[161] 


[162] 


[163] 


[164] 


[165] 


[166] 


[167] 


[168] 





[169] 





1 
第 4 章 安全 处 理 技术 189 


Gentry C, Waters B. Adaptive Security in Broadcast Encryption Systems (with Short Ciphertexts) 
[C]//Proceedings of the 28th Annual International Conference on Advances in Cryptology- 
EUROCRYPT. Berlin: Springer,2009: 171-188. 

Dan B, Hamburg M. Generalized Identity-based and Broadcast Encryption Schemes [ C ]// 
Proceedings of the 14th Annual International Conference on Advances in Cryptology- 
ASIACRYPT. Berlin: Springer,2008: 455-470. 

Okamoto T, Takashima K. Fully Secure Functional Encryption with General Relations from the 
Decisional Linear Assumption [ C ]//Proceedings of the 30th Annual International Cryptology 
Conference. Berlin; Springer. 2010; 191-208. 

Shi E; Bethencourt J. Chan T H,et al. Multi-Dimensional Range Query over Encrypted Data[ C ]// 
Proceedings of the 2007 IEEE Symposium on Security and Privacy. Piscataway, NJ: IEEE, 2007: 
350-364. 

Okamoto T, Takashima K. Hierarchical Predicate Encryption for Inner-Products[ C ]//Proceedings 
of the 15th International Conference on Advances in Cryptology- ASIACRYPT. Berlin; Springer. 
2009; 214-231. 

中 国 密码 学 会 组 编 . 中 国 密码 学 发 展 报告 2014L MT. 北京 : 中 国 质 检 出 版 社 ,2016. 

Benjamin D, Atallah M J. Private and Cheating-Free Outsourcing of Algebraic Computations[ C ]// 
Proceedings of the 6th Annual Conference on Privacy, Security and Trust. Piscataway, NJ: IEEE, 
2008: 240-245. 

Wang C,Ren K, Wang J,et al. Harnessing the Cloud for Securely Solving Large-Scale Systems of 
Linear Equations [ C ]//Proceedings of the International Conference on Distributed Computing 
Systems. Piscataway, NJ: IEEE,2011; 549-558. 

Mohassel P. Efficient and Secure Delegation of Linear Algebra[ J/OL ]. IACR Cryptology ePrint 
Archive. (2011-11-8). https: //eprint. iacr. org/2011/605. 

Kiltz E. Mohassel P. Weinreb E, et al. Secure Linear Algebra Using Linearly Recurrent Sequences 
[C]//Proceedings of the 4th Theory of Cryptography Conference. Berlin: Springer,2007: 291-310. 
Peter A, Tews E, Katzenbeisser S. Efficiently Outsoucing Multiparty Computation under Multiple 
Keys[J/OL]. IACR Cryptology ePrint Archive 2013 [2017-2-18]. http: //eprint. iacr. org/ 2013/ 
013. 

Kamara S. Raykova M. Secure Outsourced Computation in a Multi-Tenant Cloud[ C ]//Proceedings 
of the IBM Workshop on Cryptography and Security in Clouds,2011. 

Smart N. Secure Outsourced Computation[ C ]//Proceedings of the 4th International Conference on 
Cryptology in Africa. Berlin: Springer.2011: 1-20. 

Kamara S, Mohassel P. Raykova M. Outsourcing Multi-Party Computation [ J/OL ]. IACR 
Cryptology ePrint Archive 2011[2017-2-18 ]. http: //eprint. iacr. org/2011/272. 

Green M, Hohenberger S. Waters B. Outsourcing the Decryption of ABE Ciphertexts [ C ]// 
Proceedings of the 20th USENIX Security Symposium. Berkeley; USENIX Association, 2011; 34- 
34. 

Lai J,Deng R H,Guan C,et al. Attribute-based Encryption with Verifiable Outsourced Decryption. 
Information Forensics and Security[ ] ]. IEEE Transactions on IFS,2013,8(8): 1343-1354. 

Li J,Jia C.Li J,et al. Outsourcing Encryption of Attribute-based Encryption with MapReduce[ C]// 
Proceedings of the 14th Information and Communications Security. Berlin; Springer,2012; 191-201. 
Li J. Chen X,Li J,et al. Fine-Grained Access Control System based on Outsourced Attribute-based 


大 数据 安全 与 隐私 保护 








[170] 


[171] 


[172] 


[173] 


[174] 


[175] 


[176] 


[177] 


[178] 


[179] 


[180] 


[181] 


[182] 


[183] 


[184] 


[185] 








Encryption[ C ]//Proceedings of the 18th European Symposium on Research in Computer Security. 
Berlin: Springer,2013: 592-609. 

Atallah M J,Pantazopoulos K N,Rice J R,et al. Secure Outsourcing of Scientific Computations[_J]. 
Advances in Computers,2002,54; 215-272. 

Seitkulov Y N. New Methods of Secure Outsourcing of Scientific Computations[J]. The Journal of 
Supercomputing ,2013,65(1): 469-482. 

Atallah M J,Frikken K B. Securely Outsourcing Linear Algebra ComputationslC]//Proceedings of 
the 5th ACM Symposium on Information, Computer and Communications Security. New York; 
ACM, 2010; 48-59. 

Du W. A Study of Several Specific Secure Two-Party Computation Problems[ D]. Indiana: Purdue 
University. (2001-2-26). http: / /citeseer. ist. psu. edu/viewdoc/summary? doi— 10. 1. 1. 11. 3775. 
Vaidya J. Privacy-Preserving Linear Programming[ C ]/ /Proceedings of the 2009 ACM Symposium 
on Applied Computing( SAC). New York: ACM,2009; 2002-2007. 

Bednarz A,Bean N, Roughan M. Hiccups on the Road to Privacy-Preserving Linear Programming 
[C]//Proceedings of the 2009 ACM Workshop on Privacy in the Electronic Society WPES). New 
York: ACM,2009; 117-120. 

Mangasarian O L. Privacy-Preserving Linear Programming[ J ]. Optimization Letters, 2011,5 (1); 
165-172. 

Wang C, Ren K, Wang J. Secure and Practical Outsourcing of Linear Programming in Cloud 
Computing [ C ]//Proceedings of the 30th IEEE International Conference on Computer 
Communications. Piscataway, NJ: IEEE.2011: 820-828. 

Dreier J, Kerschbaum F. Practical Privacy-Preserving Multiparty Linear Programming based on 
Problem Transformation[ C ]//Proceedings of the Privacy, Security, Risk and Trust (PASSAT), 
2011 IEEE Third International Conference on and 2011 IEEE Third International Conference on 
Social Computing (SocialCom). Berlin: Springer.2011; 820-828. 

Li W,Li H, Deng C. Privacy-Preserving Horizontally Partitioned Linear Programs with Inequality 
Constraints[ J ]. Optimization Letters,2013,7(1); 137-144. 

Hong Y, Vaidya J. An inference-Proof Approach to Privacy-Preserving Horizontally Partitioned 
Linear Programs[J ]. Optimization Letters,2014,8(1) : 267-277. 

Gennaro R,Gentry C. Parno B. Non-Interactive Verifiable Computing: Outsourcing Computation to 
Untrusted Workers [ C ]//Proceedings of the 30th Annual International Cryptology Conference. 
Berlin; Springer,2010: 465-482. 

Benabbas S. Gennaro R, Vahlis Y. Verifiable Delegation of Computation over Large Datasets[ C ]// 
Proceedings of the 30th Annual International Cryptology Conference. Berlin: Springer.2011: 111- 
131. 

Parno B. Raykova M. Vaikuntanathan V. How to Delegate and Verify in Public: Verifiable 
Computation from Attribute-based Encryption[ C ]//Proceedings of the 9th Theory of Cryptography 
Conference, Berlin; Springer,2012; 422-439. 

Hohenberger S. Lysyanskaya A. How to Securely Outsource Cryptographic Computations [ C ]// 
Proceedings of the 2nd Theory of Cryptography Conference. Berlin: Springer,2005: 264-282. 

Ma X.Li J.Zhang F. Efficient and Secure Batch Exponentiations Outsourcing in Cloud Computing 
[C]//Proceedings of the 4th International Conference on Intelligent Networking and Cllaborative 
Systems. Berlin; Springer,2012: 600-605. 


1 
第 4 章 ”安全 处 理 技术 zá 








[186] 


[187] 


[188] 


[189] 


[190] 


[191] 


[192] 


[196] 


[197] 


[198] 


[199] 





[200] 





Canetti, Lindell, Yehuda, et al. Universally Composable Two-Party and Multiparty Secure 
Computation[ C ]//Proceedings of the ACM Symposium on Theory of Computing. New York: 
ACM, 2002; 494-503. 

Jarvinen K, Kolesnikov V, Sadeghi A R, et al. Embedded SFE; Offloading Server and Network 
Using Hardware Tokens[ C ]/ /Proceedings of the Financial Cryptography and Data Security. Berlin: 
Springer,2010; 207-221. 

Sadeghi A R,Schneider T. Winandy M. Token-based Cloud Computing Secure Outsourcing of Data 
and Arbitrary Computations with Lower Latency[ C ]//Proceedings of the Trust & Trustworthy 
Computing International Conference. Berlin; Springer,2010; 417-429. 

Belenkiy M.Chase M, Erway C C, et al. Incentivizing Outsourced Computation [ J/OL ]. IACR 
Cryptology ePrint Archive. (2013-3-15). https: //eprint. iacr. org/2013/156. 

Goldwasser S. Kalai Y T. Rothblum G N. Delegating Computation: Interactive Proofs for Muggles 
[C]//Proceedings of the 40th Annual ACM Symposiumon Theory of Computing, New York: 
ACM, 2008; 113-122. 

Chung K M, Kalai Y T. Vadhan S P. Improved Delegation of Computation Using Fully 
Homomorphic Encryption [ C ]//Proceedings of the 29th Annual International Cryptology 
Conference, Berlin: Springer.2010; 483-501. 

Goldwasser S,Lin H, Rubinstein A. Delegation of Computation without Rejection Problem from 
Designated Verifier CS-Proofs[ J/OL ]. IACR Cryptology ePrint Archive. (2011-2-25). https: // 
eprint. iacr. org/2011/456. pdf. 

中 国 密码 学 会 . 中 国 密码 学 发 展 报告 2015LM]. 北 京 : 中 国 质 检 出 版 社 ,2016. 

Shamir A. How to Share a Secret[J]. Communications of the ACM,1979,22(11): 612-613. 

Van Dijk M, Gentry C. Halevi S, et al. Fully Homomorphic Encryption over the Integers[ C ]// 
Advances in Cryptology: Proceeding of the 2010 International Conference on the Theory and 
Applications of Cryptographic Techniques (EUROCRYPT). Berlin; Springer.2010; 24-43. 
Broadbent A Jeffery S. Quantum Homomorphic Encryption for Circuits of Low T-Gate Complexity 
[C]//Advances in Cryptology: Proceeding of the 2015 International Cryptology Conference 
(CRYPTO). Berlin: Springer.2015: 609-629. 

Clear M, McGoldrick C. Multi-Identity and Multi-Key Leveled FHE from Learning with Errors 
[Cj]//Advances in Cryptology: Proceeding of the 2015 International Cryptology Conference 
(CRYPTO). Berlin: Springer.2015: 630-656. 

Ananth P. Brakerski Z,Segev G,et al. From Selective to Adaptive Security in Functional Encryption 
[Cl//Advances in Cryptology: Proceeding of the 2015 International Cryptology Conference 
(CRYPTO). Berlin: Springer,2015; 2015; 657-677. 

Agrawal S, Agrawal S, Prabhakaran M. Cryptographic Agents; Towards a Unified Theory of 
Computing on Encrypted Data[ C ]// Advances in Cryptology: Proceeding of the 2015 International 
Conference on the Theory and Applications of Cryptographic Techniques (EUROCRYPT). Berlin: 
Springer.2015: 501-531. 

Attrapadung N,Imai H. Conjunctive Broadcast and Attribute-based Encryption[ C ]/ /Proceedings of 
the Pairing-Based Cryptography - Pairing 2009. Berlin; Springer.2009; 248-265. 


第 5 章 ”隐私 保护 技术 


ABBE: 随 着 计算 机 、 移 动 互 联网 等 技术 的 发 展 和 应 用 ,用 户 的 电子 医疗 档案 、 互 联 
网 搜索 历史 、 社 交 网 络 记录 、GPS 设备 记录 等 信息 的 收集 、 发 布 等 过 程 中 涉及 的 用 户 隐私 泄 
露 问题 越 来 越 引 起 人 们 的 重视 。 大 数据 场景 下 ,多 个 不 同 来 源 的 数据 基于 数据 相似 性 和 一 
致 性 进行 链接 ,产生 新 的 更 丰富 的 数据 内 容 , 也 给 用 户 隐 私 保护 带 来 更 严峻 的 挑战 。 本 章 介 
绍 围绕 用 户 隐私 的 典型 数据 、 隐 私 保护 需求 .相应 的 攻击 和 保护 技术 ,包括 传统 人 口 统计 数 
据 中 的 用 户 身份 攻击 、 社 交 网 络 中 的 用 户 社交 关系 和 属性 推测 、 位 置 社交 网 络 中 的 用 户 隐私 
位 置 推测 和 活动 规律 挖 握 ,以 及 对 应 的 隐私 保护 技术 等 。 早 期 基于 典型 的 数据 库 表 结 构 数 
据 的 研究 为 新 出 现 的 社交 网 络 数 据 和 轨迹 数据 研究 提供 了 经 典 模型 ,后 续 研究 更 针对 后 两 
者 的 独特 数据 特征 和 保护 需求 。 差 分 隐私 模型 提出 了 目前 最 严格 的 隐私 定义 ,并 忽略 了 对 
数据 内 容 、 攻 击 者 能 力 的 假设 ,但 对 数据 可 用 性 具有 一 定 影响 。 隐 私 保护 技术 需要 立足 于 具 
体 场 景 的 数据 构成 ,综合 考虑 用 户 的 多 种 隐私 信息 间 的 相关 性 ,结合 多 种 技术 ,才能 提供 全 
面 的 隐私 保护 解决 方案 。 

关键 词 : 身份 隐私 ;社交 关系 隐私 ;属性 隐私 ;轨迹 隐私 ;链接 攻击 ; 同 质 攻击 ;近似 攻 
击 ;匿名 ;人 多样 化 ;t- 贴 近 ; 社 交 关 系 推测 ;马尔 可 夫 模 型 ;高 斯 混合 模型 ; 贝 叶 斯 模型 ; 活 
动 建 模 ;时 空 模型 ;差分 隐私 ;本 地 差分 隐私 ;Rappor 协议 ;SH 协议 。 


5.1 基本 知识 


大 数据 时 代 , 人 类 活动 前 所 未 有 地 被 数据 化 。 移 动 通 信 、 数 字 医 疗 、 社 交 网 络 、 在 线 视 
频 、 位 置 服务 等 应 用 积累 并 持续 不 断 地 产生 大 量 数 据 。 以 共享 单车 为 例 ,截至 2017 年 5 月 
底 , 国 内 共享 单车 累计 服务 已 超过 10 亿 人 次 ,注册 用 户 超过 1 亿 个 。 面 向 这 些 大 规模 、 高 速 
产生 、 蕴 含 高 价值 的 大 数据 的 分 析 挖 所 不 但 为 本 行业 的 持续 增长 做 出 了 贡献 ,也 为 跨行 业 应 
用 提供 了 强 有 力 的 支持 。 共 享 单车 的 骑 行路 线 在 交通 预测 、 路 线 推荐 城市 规划 方面 具有 重 
Bey, 

而 随 着 数据 披露 范围 的 不 断 扩大 ,隐藏 在 数据 背后 的 主体 也 面临 愈 来 愈 严 重 的 隐私 挖 
掘 威胁 ,例如 根据 骑 行 路 线 推理 个 人 用 户 的 家 庭 住址 ,单位 地 址 、 出 行规 律 或 者 匿名 用 户 被 
重新 识别 出 来 ,进而 导致 “定制 化 ”攻击 ,等 等 ,为 用 户 带 来 了 极 大 损失 。2017 年 6 月 1 日 
起 ,最 高 人 民法 院 、 最 高 人 民 检察 院 联 合 发 布 的 (关于 办 理 侵犯 公民 个 人 信息 刑事 案件 适用 
法 律 若干 问题 的 解释 ?正式 生效 ,其 中 对 "非法 获取 、 出 售 或 者 提供 行踪 轨迹 信息 、 通 信 内 容 、 
征 信 信息 、 财 产 信 息 50 条 以 上 的 ”等 10 种 情形 明确 入 罪 , 体 现 了 国家 对 个 人 信息 保护 的 

为 满足 用 户 保护 个 人 隐私 的 需求 及 相关 法 律 法 规 的 要 求 , 大 数据 隐私 保护 技术 需 确保 
公开 发 布 的 数据 不 泄露 任何 用 户 敏感 信息 。 同 时 ,隐私 保护 技术 还 应 考虑 到 发 布 数据 的 可 
用 性 。 因 为 片面 强调 数据 匿名 性 ,将 导致 数据 过 度 失真 ,无 法 实现 数据 发 布 的 初衷 。 因 此 ， 
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数据 隐私 保护 技术 的 目标 在 于 实现 数据 可 用 性 和 隐私 性 之 间 的 良好 平衡 。 


1. 数据 隐私 保护 场景 

一 般 来 说 ,一 个 隐私 保护 数据 发 布 方案 的 构建 涉及 以 下 4 个 参与 方 : 

CO 个 人 用 户 : 收集 数据 的 对 象 。 

(2) 数据 采集 /发 布 者 : 数据 采集 者 与 用 户 签订 数据 收集 、 使 用 协议 ,获得 用 户 的 相关 
数据 。 数 据 采 集 者 通常 也 负责 数据 发 布 ( 用 户 本 地 隐私 保护 情景 除外 )。 根 据 数据 发 布 的 目 
的 和 限制 条 件 ,数据 发 布 者 对 数据 进行 一 定 的 处 理 并 以 在 线 交 互 或 离线 非 交互 方式 提供 给 
数据 使 用 者 ,在 进行 数据 处 理 时 还 须 预 防 潜在 的 恶意 攻击 。 

(3) 数据 使 用 者 : 任意 可 获取 该 公开 数据 的 机 构 和 个 人 。 数 据 使 用 者 希望 获得 满足 其 
使 用 目的 的 尽 可 能 真实 有 效 的 数据 。 

(4) 攻击 者 : 可 获取 该 公开 数据 的 恶意 使 用 者 。 攻 击 者 可 能 具有 额外 的 信息 或 者 知识 
等 ,试图 利用 该 公开 数据 识别 特定 用 户 身 份 ,获取 关于 某 特定 用 户 的 敏感 信息 ,进而 从 中 件 
取 利 益 。 

攻击 者 的 能 力 可 分 为 两 类 。 一 类 是 背景 知识 (background knowledge) ,通常 是 关于 特 
定 用 户 或 数据 集 的 相关 信息 。 如 攻击 者 可 能 知道 Amanda 是 部 门 经 理 ,Alice 是 营业 员 , Bill 
的 出 生日 期 是 1976 年 12 月 1 日。 背景 知识 的 获得 完全 基于 攻击 者 对 具体 攻击 目标 的 了 
解 ,攻击 者 可 以 利用 其 掌握 的 背景 知识 ,在 公开 发 布 的 数据 中 识别 出 某 个 特定 用 户 。 另 一 类 
是 领域 知识 (domain knowledge) , 指 关 于 某 个 领域 内 部 的 基本 常识 ,通常 具有 一 定 的 专业 
性 。 例 如 ,医学 专家 可 能 了 解 不 同 区 域 人 群 中 某 种 疾病 的 发 病 率 。 当 攻击 者 将 目标 范围 缩 
小 到 有 限 的 记录 集 时 ,攻击 目标 可 能 患 有 的 疾病 也 仅 限 于 记录 集中 的 几 种 。 具 有 医学 知识 
的 攻击 者 可 以 根据 攻击 目标 的 地 域 推理 出 其 可 能 患 有 的 疾病 。 

在 实际 场景 中 ,数据 采集 /发 布 者 隐私 保护 方案 可 选择 在 线 模 式 或 离线 模式 。 在 线 模 式 
又 称 “ 查 询 -问答 ”模式 ,对 用 户 所 访问 的 数据 提供 实时 隐私 保护 处 理 。 在 在 线 模式 (图 5-1 
(a)) 下 ,通过 数据 发 布 者 的 调控 ,数据 被 收集 的 个 人 用 户 和 期 望 获 得 真实 数据 的 使 用 者 之 间 

用 户 使 用 服务 PT 
在 线 隐私 : 


实时 调整 采集 
Ñ e 数据 的 隐私 策略 
(a) 简单 的 在 线 数据 隐私 场景 


用 户 使 用 服务 服务 提供 商 
获取 用 户 数据 





(b) 简单 的 离线 数据 隐私 场景 
5-1 数据 隐私 场景 示意 图 
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应 能 够 就 数据 的 使 用 目的 、 范 围 .限制 情 况 达 成 一 致 。 但 在 线 模式 对 算法 性 能 要 求 较 高 。 离 
线 模式 (图 5-1(b)) 是 指 在 对 所 有 数据 统一 进行 隐私 保护 处 理 后 批量 发 布 。 数 据 一 旦 公开 
发 布 ,数据 发 布 者 和 数据 被 收集 的 个 人 用 户 就 失去 了 对 数据 的 监管 能 力 。 任 意 获 得 该 公开 
数据 的 第 三 方 ,包括 恶意 攻击 者 在 内 ,都 可 以 对 这 些 数据 进行 深入 分 析 。 因 此 ,在 离线 模式 
下 ,数据 发 布 者 应 力求 提前 预测 攻击 者 的 所 有 可 能 攻击 行为 ,并 采取 有 针对 性 的 防范 措施 。 
即使 无 法 对 攻击 者 的 所 有 行为 进行 预测 ,数据 发 布 者 也 应 重点 关注 个 人 用 户 最 基本 的 隐私 
保护 需求 ,并 进行 对 应 的 保护 方案 设计 和 攻击 预防 ,从 而 避免 对 个 人 用 户 的 隐私 造成 严重 侵 
害 。 本 章 主要 讨论 离线 模式 数据 发 布 场景 。 


2. 隐私 保护 需求 

用 户 隐私 保护 需求 可 分 为 身份 隐私 、 属 性 隐私 、 社 交 关 系 隐私 、 位 置 与 轨迹 隐私 等 几 
大 类 。 

(1) 身份 隐私 。 它 是 指数 据 记录 中 的 用 户 ID 或 社交 网 络 中 的 虚拟 节点 对 应 的 真实 用 
户 身 份 信息 。 通 常情 况 下 ,政府 公开 部 门 或 服务 提供 商 对 外 提供 匿名 处 理 后 的 信息 。 但 是 
一 旦 分 析 者 将 虚拟 用 户 ID 或 节点 和 真实 的 用 户 身份 相关 联 , 即 造成 用 户 身份 信息 泄露 (也 
称 为 “去 匿名 化 ") 。 用 户 身份 隐私 保护 的 目标 是 降低 攻击 者 从 数据 集中 识别 出 某 特定 用 户 
的 可 能 性 。 

(2) 属性 隐私 。 属 性 数据 用 来 描述 个 人 用 户 的 属性 特征 ,例如 结构 化 数据 表 中 年 龄 .性 
别 等 描述 用 户 的 人 口 统计 学 特征 的 字段 。 宽 泛 地 说 ,用 户 购物 历史 、 社 交 网 络 上 用 户主 动 提 
供 的 喜欢 的 书 音乐 等 个 性 化 信息 都 可 以 作为 用 户 的 属性 信息 。 这 些 属性 信息 具有 丰富 的 
信息 量 和 较 高 的 个 性 化 程度 ,能 够 帮助 系统 建立 完整 的 用 户 轮廓 ,提高 推荐 系统 的 准确 性 
等 。 然 而 ,用 户 往往 不 希望 所 有 属性 信息 都 对 外 公开 ,尤其 是 敏感 程度 较 高 的 属性 信息 。 例 
如 , 某 些 视频 观看 记录 被 公开 会 对 用 户 的 形象 造成 不 良 影 响 。 但 是 ,简单 地 删除 敏感 属性 是 
不 够 的 ,因为 分 析 者 有 可 能 通过 对 用 户 其 他 信息 (如 社交 关系 、 非 敏感 属性 、 活 动 规律 等 ) 进 
行 分 析 、 推 测 将 其 还 原 出 来 。 属 性 隐私 保护 的 目标 是 对 用 户 相 关 属 性 信息 进行 有 针对 性 的 
处 理 , 防 止 用 户 敏感 属性 特征 泄露 。 

(3) 社交 关系 隐私 。 用 户 和 用 户 之 间 形 成 的 社交 关系 也 是 隐私 的 一 种 。 通 常 在 社交 网 
络 图 谱 中 ,用 户 社交 关系 用 边 表示 。 服 务 提 供 商 基 于 社交 结构 可 分 析出 用 户 的 交友 倾向 并 
对 其 进行 朋友 推荐 ,以 保持 社交 群体 的 活跃 和 黏 性 。 但 与 此 同时 ,分 析 者 也 可 以 挖掘 出 用 户 
不 愿 公开 的 社交 关系 、 交 友 群 体 特征 等 ,导致 用 户 的 社交 关系 隐私 甚至 属性 隐私 暴露 。 社 交 
关系 隐私 保护 要 求 节点 对 应 的 社交 关系 保持 匿名 ,攻击 者 无 法 确认 特定 用 户 拥 有 哪些 社交 

(4) 位 置 轨 迹 隐 私 。 用 户 位 置 轨迹 数据 来 源 广泛 ,包括 来 自 城市 交通 系统 .GPS 导航 、 
行程 规划 系统 、 无 线 接 入 点 以 及 各 类 基于 位 置 服务 的 APP 数据 等 。 用 户 的 实时 位 置 泄露 可 
能 会 给 其 带 来 极 大 危害 ,例如 被 锁定 并 实施 定位 攻击 。 而 用 户 的 历史 位 置 轨迹 分 析 也 可 能 
暴露 用 户 隐私 属性 、 私 密 关 系 、 出 行规 律 甚至 用 户 真 实 身份 ,为 用 户 带 来 意 想不到 的 损失 。 
用 户 位 置 轨 迹 隐 私 保护 要 求 对 用 户 的 真实 位 置 进行 隐藏 或 处 理 , 不 泄露 用 户 的 敏感 位 置 和 
行动 规律 给 恶意 攻击 者 ,从 而 保护 用 户 安全 。 

从 数据 类 型 角度 看 ,用 户 隐 私 数据 可 表示 为 结构 化 数据 或 非 结构 化 数据 。 通 常 , 用 户 的 
属性 信息 (如 年 龄 性别. 购物 记录 等 ) 属 于 典型 的 结构 化 数据 ,可 表示 为 数据 库 表 ;用 户 位 





| 
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置 .轨迹 数 据 一 般 以 点 集 的 形式 表示 ,也 属于 结构 化 数据 。 而 用 户 社交 关系 数据 则 表现 为 相 
对 复杂 的 网 络 关系 ,属于 非 结构 化 数据 ,一 般 用 图 结构 表示 。 图 5-2 中 展示 了 基本 数据 类 
型 。 为 了 表达 两 者 之 间 的 关联 ,后 文中 将 用 户 隐私 表示 为 “属性 -图 ”结构 。 






























































姓名 年 龄 | 性 别 | ”邮编 工资 Id Time Longitude Latitude Tid 
Andy 42 M | 100190 | 1000 Andy | 2016.12.23 | 39.9777985 | 116.3353885 | T000 
Alice 22 F 100190 | 1100 Andy | 2016.12.23 | 39.9777985 | 116.3351000 | T000 
Alen 53 M | 100180 | 1200 Alice | 2016.12.25 | 39.9674738 | 116.3392735 | T000 
Bill 42 M | 100180 | 1300 Alice | 2016.12.25 | 39.9675288 | 116.3392885 | T000 
Amanda 22 F 100170 | 1400 Alice | 2016.12.25 | 39.9675288 | 116.3392885 | T000 
Christina 53 F 100170 | 1500 Alice | 2016.12.25 | 39.9708951 | 116.3214983 | T000 
(a) 关系 型 表 数 据 (b) 轨迹 数据 





(c) 社交 结构 数据 
图 5-2 基本 数据 类 型 


除了 数据 类 型 不 同 ,用 户 的 关系 型 表 数据 ,位 置 轨迹 数据 ,社交 结构 数据 在 各 自 的 数据 
维度 上 也 具有 明显 不 同 的 特性 。 数 据 表 中 的 一 条 记录 通常 只 代表 一 个 用 户 , 用 户 间 的 相关 
性 较 弱 。 记 录 之 间 的 相关 性 基本 上 只 与 其 所 处 的 统计 分 组 有 关 , 属 性 之 间 的 相关 性 只 与 整 
个 表 呈 现 出 的 数据 分 布 有 关 。 个 人 的 位 置 轨迹 数据 通常 是 一 系列 长 度 不 定 的 点 集 序列 , 具 
有 明显 的 时 间 顺 序 和 周期 重复 特征 ,反映 了 个 人 运动 规律 ,使 得 用 户 的 运动 轨迹 易于 被 预 
测 ,而 难以 合理 、 高 效 地 彻底 隐藏 。 社 交 网 络 数据 中 除了 属性 数据 ,还 具有 复杂 的 边 连 接 。 
在 这 种 场景 中 ,用 户 通过 边 连 接 进行 影响 力 传播 和 相似 性 传递 ,最 终 导致 “朋友 的 朋友 也 是 
我 的 朋友 ”的 局 部 相似 性 日 益 凸显 ,使 得 用 户 的 属性 、 社 交 关 系 甚至 身份 容易 从 局 部 社区 中 
被 推测 出 来 。 隐 私 保护 技术 必须 针对 不 同 数据 的 特征 进行 处 理 , 才 能 实现 期 望 的 隐私 保护 
效果 。 

3. 隐私 保护 技术 分 类 

前 面 提 到 ,数据 隐私 保护 的 目标 在 于 实现 数据 可 用 性 和 隐私 性 之 间 的 良好 平衡 。 因 此 ， 
一 个 隐私 保护 方案 有 明确 的 隐私 保护 目标 与 可 用 性 目标 。 

当前 的 隐私 保护 模型 有 两 大 类 : 以 匿名 为 代表 的 基于 等 价 类 的 方法 和 差分 隐私 方 
法 。 前 者 假设 攻击 者 能 力 有 限 , 仅 能 将 攻击 目标 缩小 到 一 定 的 等 价 类 范围 内 ,而 无 法 唯一 地 
准确 识别 攻击 目标 ;后 者 则 假设 可 能 存在 两 个 相 邻 数据 集 , 分 别 包 含 或 者 不 包含 攻击 目标 ， 
但 攻击 者 无 法 通过 已 知 内 容 推出 两 个 数据 集 的 差异 ,因此 ,也 无 法 判断 攻击 目标 是 否 在 真实 
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数据 集中 。 前 者 的 优势 在 于 ,在 攻击 者 能 力 不 超 过 假设 的 前 提 下 ,能够 以 较 小 的 代价 保证 同 
一 等 价 类 内 记录 的 不 可 区 分 性 。 而 如 果 攻 击 者 能 力 超 过 了 假设 ,攻击 者 就 能 够 进一步 区 分 
等 价 类 内 的 不 同 记录 ,从 而 实现 去 匿名 化 。 后 者 的 优势 在 于 ,攻击 者 不 可 能 具有 超过 假设 的 
攻击 能 力 , 因 而 不 可 能 突破 差分 隐私 方法 提供 的 匿名 保护 。 但 是 ,由 于 数据 集 的 差异 性 , 差 
分 隐私 方法 可 能 会 对 原始 数据 造成 较 大 扰动 ,过 度 破坏 数据 可 用 性 。 

典型 的 隐私 保护 技术 手段 包括 抑制 (suppression)、 泛 化 (generalization)、 置 换 
(permutation) ,扰动 (perturbation) 裁剪 (anatomy) 等 。 此 外 ,也 有 人 通过 密码 学 手段 实现 
隐私 保护 。 

CD 抑制 是 最 常见 的 数据 匿名 措施 ,通过 将 数据 置 空 的 方式 限制 数据 发 布 。 

(2) 泛 化 是 指 通过 降低 数据 精度 来 提供 匿名 的 方法 。 属 性 泛 化 即 通过 制定 属性 泛 化 路 
径 ,将 一 个 或 多 个 属性 的 不 同 取 值 按照 既定 泛 化 路 径 进行 不 同 深度 的 泛 化 ,使 得 多 个 元 组 的 
属性 值 相同 。 最 深 的 属性 泛 化 效果 通常 等 同 于 抑制 。 社 交 关 系数 据 的 泛 化 则 是 将 某 些 节点 
以 及 这 些 节点 间 的 连接 进行 泛 化 。 位 置 轨迹 数据 可 进行 时 间 空间 泛 化 。 

(3) 置换 方法 不 对 数据 内 容 作 更 改 , 但 是 改变 数据 的 属 主 。 例 如 ,将 不 同 的 个 人 用 户 的 
属性 值 互相 交换 ,将 用 户 a Sb 之 间 的 边 置换 为 a 与 c 之 间 的 边 。 

(4) 扰动 是 在 数据 发 布 时 添加 一 定 的 噪声 ,包括 数据 增删 .变换 等 ,使 攻击 者 无 法 区 分 
真实 数据 和 噪声 数据 ,从 而 对 攻击 者 造成 干扰 。 

(5) 裁剪 技术 的 基本 思想 是 将 数据 分 开发 布 。 例 如 ,对 于 表 结 构 数据 ,首先 将 用 户 划分 
为 不 同 的 组 ,赋予 同一 组 的 记录 相同 的 组 标识 符 (group id) ,对 应 记录 的 敏感 数据 也 赋予 相 
同 的 组 标识 符 , 然 后 将 准 标识 符 ( 如 地 域 ,性 别 等 ) 和 敏感 数据 分 别 添加 组 标识 符 作 为 两 张 新 
表 发 布 。 恶 意 攻击 者 即使 可 以 确定 攻击 目标 的 组 标识 符 , 但 是 无 法 有 效 地 从 具有 相同 组 标 
识 符 的 敏感 数据 中 判定 攻击 目标 对 应 的 敏感 数据 。 

(6) 密码 学 手段 利用 数据 加 密 技术 阻止 非法 用 户 对 数据 的 未 授权 访问 和 滥用 。 

隐私 保护 方案 需要 引入 可 用 性 标准 。 一 种 通用 的 机 制 是 度量 数据 失真 程度 ,并 不 考虑 
发 布 的 数据 被 如 何 使 用 。 通 过 定义 一 系列 数据 集 属 性 特征 ,比较 真实 数据 和 数据 发 布 版 本 
的 特征 变化 来 衡量 数据 损失 程度 。 例 如 ,对 于 关系 型 数据 表 中 的 数值 型 数据 ,计算 其 平均 值 
的 偏 移 量 。 如 果 数 据 有 明确 的 应 用 领域 ,例如 对 数据 进行 统计 分 析 、 计 算 均 值 、 找 出 Top-k 
对 象 等 ,那么 可 用 性 指标 可 以 更 具体 化 ,表示 为 计算 结果 的 准确 度 。 





5.2 关系 型 数据 隐私 保护 


2002 年 ,SweeneyC 洒 提出 了 人 -匿名 模型 ,这 是 第 一 个 真正 意义 上 完整 的 隐私 保护 模 
型 。 这 一 方案 能 够 杜绝 攻击 者 唯一 地 识别 出 数据 集中 的 某 个 特定 用 户 , 使 其 无 法 进一步 获 
得 该 用 户 的 准确 信息 ,能 够 提供 一 定 程 度 的 用 户 身份 隐私 保护 。 在 Sweeney 提出 的 隐私 方 
案 中 明确 了 对 数据 可 用 性 和 用 户 隐私 性 的 保证 。 此 外 ,人 们 还 关注 表 结 构 数据 中 的 用 户 敏 
感 属 性 的 隐私 保护 需求 。 根 据 敏 感 属性 的 分 布 情况 ,人 们 提出 了 /多样 化 \z- 贴 近 模型 。 这 
些 方法 为 后 续 社 交 网 络 隐私 保护 与 位 置 轨迹 隐私 保护 奠定 了 基础 。 

本 节 主 要 介绍 早期 的 表 结 构 数 据 研究 中 的 身份 匿名 和 属性 匿名 方法 一 些 常 见 的 攻击 
方法 以 及 数据 连续 发 布 场 景 中 的 问题 与 解决 方案 。 
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5.2.1 身份 匿名 


1. 链接 攻击 与 身份 匿名 

简单 地 去 标识 符 匿名 化 仅仅 去 除了 表 中 的 身份 ID 等 标志 性 信息 ,攻击 者 仍 可 和 凭借 背景 
知识 ,如 地 域 ,性 别 等 准 标识 符 信息 ,迅速 确定 攻击 目标 对 应 的 记录 。 此 类 攻击 称 为 记录 链 
接 (record linkage) 攻 击 , 简 称 链 接 攻击 。 如 表 5-1 所 示 , 原 始 用 户 医疗 记录 表 中 包含 了 
Name( 用 户 姓 名 ) 这 一 标识 符 , 简 单 删除 标识 符 列 之 后 可 以 得 到 如 表 5-2 所 示 的 匿名 记录 
表 。 如 果 攻 击 者 持 有 公开 的 选民 记录 表 作 为 背景 知识 ( 表 5730 ,与 公开 发 布 的 匿名 记录 表 
对 比 ,通过 Z( 邮 编 )、Age( 年 龄 ) 等 若干 项 属性 信息 ,攻击 者 仍 可 以 唯一 地 识别 出 某 些 用 户 。 
例如 ,可 推断 出 第 2 条 记录 对 应 的 用 户 是 Bob. 


表 5-1 原始 的 用 户 医疗 记录 表 









































Identifier Quasi-identifier Sensitive Data 
# Name ZIP Age Nationality Condition 
1 Kumar 13053 28 Indian Heart Disease 
2 Bob 13067 29 American Heart Disease 
3 Ivan 13053 35 Canadian Viral Infection 
R52 匿名 后 的 用 户 医疗 记录 表 表 5-3 选民 记录 表 
Quasi-identifier Sensitive Data Name ZIP Age Sex Vote 
# ZIP Age | Nationality | Condition Natalia 13053 28 | Female Yes 
1 | 13053 28 | Indian Heart Disease Bob 13067 29 | Male Yes 
2 | 13067 29 | American Heart Disease Lisa 13053 35 | Female No 
3 | 13053 35 | Canadian Viral Infection Umeko 13067 36 | Female Yes 























2. k- E E AER ERI 

为 避免 攻击 者 通过 链接 攻击 从 发 布 的 数据 中 唯一 地 识别 出 特定 匹配 用 户 , 导 致 用 户 身 
份 泄露 ,Samarati 和 Sweeney 最 早 提 出 了 适用 于 关系 型 数据 表 的 &- 匿 名 (k-anonymity) 模 
型 2 。 这 一 方案 按照 准 标识 符 将 数据 记录 分 成 不 同 的 分 组 , 且 每 一 分 组 中 至 少 包含 & 条 记 
录 。 这 样 ,每 个 具有 某 个 准 标识 符 的 记录 都 至 少 与 & 一 1 个 其 他 记录 不 可 区 分 ,从 而 实现 用 
户 身份 匿名 保护 。 

定义 5-1(k- 匿 名 ) 令 T(Ai,A:,…,A,) 为 一 张 行 数 有 限 的 表 , 属 性 集合 为 {Al ,A: ,…， 
A,)}。QIr 为 表 中 的 准 标 识 符 QIr 二 {A;,Ain,…,A;}。 表 工 满 足 &- 匿 名 , 当 且 仅 当 每 一 组 
准 标识 符 的 取 值 序 列 在 TL QU] P HRED kK. 

为 了 让 发 布 的 数据 满足 匿名 需求 ,Samarati 和 Sweeney 给 出 了 相应 的 数据 处 理 方 
法 ,提出 了 一 种 通过 元 组 泛 化 实现 上 匿名 的 解决 方案 。 

属性 A 的 泛 化 函数 可 表示 为 1:A 一 B。 属 性 A 的 持续 泛 化 过 程 可 表示 为 域 泛 化 层次 
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结构 (domain generalization hierarchy) DGH, ,通过 一 组 函数 f£, (hh 二 0,1,…,n 一 1) 的 作用 ， 
实现 从 属性 A 的 所 有 取 值 汉化 到 “任意 ”或 者 ** ”的 完整 泛 化 路 径 : Ao Sh y Ay ne 


dre aus 其 中 Au=A4A,|A,|=1。 例 如 ,ZIP 编码 可 由 具体 的 02138 逐步 或 直接 泛 化 为 不 具 
体 的 0213* ,021" ,02'" 0 。 出 生年 份 可 由 精确 的 1965 泛 化 为 1960 一 1970、1950 
1970。 泛 化 路 径 的 属性 值 之 间 存 在 偏 序 关系 。 对 于 属性 A 的 两 个 泛 化 值 w HL o; E ij 
H f ji Cn fi Qo) ) 9v; BA v; 和 w; 存在 偏 序 关 系 ,表示 为 vo vie 

显然 在 泛 化 层次 树 中 , 离 树 根 越 近 的 节点 泛 化 程度 越 高 ,对 数据 的 破坏 越 大 。 为 了 在 数 
据 处 理 过 程 中 尽 可 能 保持 数据 可 用 性 ,同时 ,尽快 满足 & 个 相同 记录 的 需求 ,Sweeney 等 人 
提出 了 大 匿名 最 小 泛 化 的 概念 。 

定义 5-2(k- 匿 名 最 小 泛 化 ) $ Ti (Al. Anes An) Al Tn (Ai,As,…,A,) 分 别 为 两 张 
RHR Ql = (A; Ain oe Aj} AT; [Qr] STan [Qr] MK Tn ERT) 的 大 
匿名 最 小 泛 化 , 当 且 仅 当 满足 以 下 两 个 条 件 : 

CD T, 在 定义 的 准 标识 符 QIr 上 符合 人 匿名 模型 。 

(2) VT, TST. T: STan WR T. 也 满足 &- 匿 名 模型 ,那么 必然 有 T. [QIr] = 
T, [Qlz] 6 

在 存在 多 种 符合 及 匿 名 模型 的 最 小 泛 化 的 场景 中 ,需要 进一步 比较 泛 化 过 程 中 的 数据 
扰动 来 选取 最 优 的 泛 化 方案 。 为 此 ,Sweeney 等 人 定义 了 数据 准确 度 Prec 来 衡量 泛 化 过 程 
中 的 信息 变化 以 及 定义 最 小 扰动 的 概念 。 

定义 5-3( 数 据 准 确 度 Pre) 4 PT 为 原始 数据 表 。 表 PT 的 准 标 识 符 由 N。 个 属性 
{AA An, ERRE N 条 记录 ,tp 为 表 PT 中 的 第 j 条 记录 。RT 为 PT 的 一 个 
泛 化 表 ,tr; 为 与 表 PT 中 tp; 对 应 的 泛 化 后 记录 。 心 为 tr 中 属性 A; 的 泛 化 结果 trj CA JAk 
于 该 属性 的 泛 化 层次 结构 的 路 径 深度 。DGH 为 属性 A; 泛 化 层次 结构 的 高 度 。RT 的 数 
据 准 确 度 由 下 式 确定 : 


N, N 
Prec(RT) = 1 一 PIE NI ced 

N° N. 

定义 5-4( 最 小 扰动 ) 4 Ti (Ai As on AD Al Ty, (Ai,A,,…,A,) 分 别 为 两 张 表 , 其 准 
标识 符 均 为 QIr=={Ai,Aiti,*…,Aj}, 且 Ti[QIr]<T,[QIr]。 Vzx=i,itl,.…,j,DGHA, 
是 准 标 识 符 QIr 的 域 泛 化 层次 结构 。 称 T,, ERT) 符合 二 匿名 模型 的 最 小 扰动 , 当 且 仅 当 
满足 以 下 两 个 条 件 : 

COD T, 在 定义 的 准 标识 符 QIr 上 符合 人 -匿名 模型 。 

(2) YT.: Prec(T,)=Prec(T,) .Pree(T.)=Prec(T,,) W T, 也 满足 人 匿名 模型 , 那 
AURA T. [Qh ]=Tn [QIr]。 

根据 定义 , 若 PT 中 的 记录 未 经 过 泛 化 , 则 任意 记录 的 准 标识 符 属性 h =0, Prec(PT) = 
。 在 另 一 种 极端 情况 下 ,RT 中 的 准 标识 符 属性 均 汉 化 到 层次 结构 的 根 节点 ,那么 h 二 
|DGH| ,Prec(RT) 二 0。 在 实际 数据 隐私 处 理 的 过 程 中 ,数据 发 布 者 希望 获得 较 高 的 数据 
准确 度 , 就 必须 尽 可 能 少 地 进行 数据 泛 化 ,也 就 是 说 ,使 得 数据 泛 化 的 位 置 尽 可 能 离 泛 化 层 
次 结构 的 根 节点 更 近 , 以 实现 最 小 扰动 。 
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Sweeney 等 人 设计 了 一 种 最 小 扰动 的 上 匿名 泛 化 算法 。 该 算法 包括 如 下 两 个 步骤 

CD 判断 PT 是 否 符 合 -匿名 模型 ,如 果 是 ,输出 PT, 和 否则 进入 第 (2) 步 。 

(2) 执行 如 下 操作 : 

(2.1) 生成 PT 的 所 有 可 能 的 泛 化 表 集 合 , 记 为 allgens。 

(2.2) 检测 allgens 中 符合 人 -匿名 模型 的 泛 化 表 , 将 该 集合 记 为 protected. 

(2. 3) 保存 protected 中 符合 最 小 扰动 的 泛 化 表 , 记 为 MGT。 

(2.4) 根据 用 户 定义 的 偏好 ,从 MGT 中 输出 唯一 的 符合 用 户 偏好 的 最 小 扰动 输出 。 

在 基本 有 -匿名 算法 的 基础 上 ,Lefevre 等 人 中 提出 了 一 个 基于 贪心 算法 的 改进 方案 , 重 
点 优化 了 寻找 最 小 扰动 的 过 程 ,算法 的 效率 有 了 很 大 提高 。Bayardo 等 人 名 给 出 了 基于 数 
据 拆 分 发 布 和 元 组 抑制 的 解决 方案 。 


3. -匿名 模型 的 局 限 性 

用 户 购物 历史 、 观 影 历史 等 数据 虽然 也 可 以 用 数据 表 的 形式 表示 ,但 是 ,这 类 数据 中 不 
存在 严格 的 准 标识 符 信息 。 因 为 数据 发 布 方 无 法 准确 界定 哪 一 条 购买 记录 和 用 户 评价 信息 
是 用 户 的 准 标识 符 信息 ,任何 非特 定 记 录 都 可 能 被 攻击 者 用 来 重新 识别 出 用 户 身份 。 很 显 
然 , 基 础 的 人 匿名 模型 的 适用 范围 并 不 包括 这 类 数据 ,而 是 仅 限 于 能 准确 定义 准 标识 符 属 
性 的 关系 型 表 结构 数据 。 

2006 年 Netflix 的 用 户 隐 私 泄露 事件 就 是 由 于 公开 的 用 户 观 影 记录 匿名 程度 不 足 而 导 
致 部 分 用 户 的 身份 泄露 。Narayanan 等 人 随后 在 2008 年 的 S&P 会 议 上 公开 了 他 们 利用 
IMDB 数据 库 对 Netflix 数据 进行 链接 攻击 的 方法 中 。 该 文 直观 地 展示 了 -匿名 模型 的 
不 足 。 

首先 ,该 文 定义 了 一 个 简单 的 打分 比较 算法 。 假 设 当 前 攻击 者 获得 了 关于 某 个 特定 攻 
击 目 标的 额外 信息 ,需要 根据 这 些 信 息 判定 攻击 目标 与 当前 待定 用 户 ”~ 的 相似 度 。 打 分 算 
法 就 是 用 来 计算 当前 掌握 的 关于 攻击 目标 的 额外 信息 aux 和 待定 用 户 xr' 的 所 有 属性 的 相似 
程度 ， 

Score(aux.r) = „min Sim(aux +r) 

这 个 算法 比较 了 攻击 目标 的 额外 信息 aux 和 待定 用 户 一 的 所 有 属性 ,并 将 属性 相似 性 
分 值 最 小 的 记 为 两 者 的 相似 性 打分 。 这 里 采用 的 Sim 函数 求 得 的 是 余弦 相似 性 。 在 这 种 
思想 下 ,如果 两 个 "用 户 ”aux FL r 在 某 个 属性 上 差异 特别 巨大 ,那么 这 两 者 基本 不 可 能 是 同 
一 个 用 户 。 但 如 果 额 外 信息 aux 或 者 待定 用 户 ~ 中 的 某 个 属性 出 现 错误 ,就 很 容易 导致 两 
者 的 相似 性 打分 非常 低 , 所 以 将 相似 性 打分 公式 更 新 为 


Score(aux.r) = > wt(i) Sim(aux; +r) 
i€ supp(aux) 


Jh wi) m T log |supp( 让 | 为 x' 所 处 的 数据 集中 具有 属性 i 的 用 户 数 。 在 
og |supp(i) | 


这 种 情况 下 , 越 和 兢 有 的 属性 权重 越 高 ,两 个 "用 户 ” 的 加 权 相 似 性 最 高 ,那么 他 们 就 可 能 是 同 
一 个 用 户 的 两 个 id。 

基于 这 个 打分 算法 ,Narayanan 等 人 选取 了 IMDB 数据 集中 的 50 个 用 户 和 Netflix 公 
开 数据 集 的 用 户 进行 了 打分 匹配 。 他 们 利用 IMDB 数据 集中 的 用 户 观 影 打分 作为 额外 信 
息 。 实 验 发 现 ,如 果 用 户 在 Netflix 和 IMDB 发 布 的 影片 评分 相同 ,并 且 日 期 相差 不 远 ,此 类 
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评分 越 多 ,用 户 账户 越 容易 匹配 。 实 验 同时 还 发 现 , 如 果 用 户 评分 的 电影 越 小 众 , 他 也 越 容 
易 被 识别 ,也 符合 打分 公式 中 较 少 的 人 具有 的 属性 权重 较 大 的 设置 。 在 该 文中 ,Narayanan 
等 人 指出 ,在 实际 的 多 维 数据 发 布 场景 中 ,数据 通常 很 稀 下 ,攻击 者 可 能 只 需要 掌握 很 少 的 
属性 (5 一 10 个 非 热 门 电影 ) ,就 能 识别 出 大 量 用 户 。 实 际 上 也 就 是 说 ,与 用 户 具 有 相同 属性 
的 人 越 少 ,用 户 的 唯一 性 越 强 , 该 用 户 越 容易 被 识别 。 

Narayanan 等 人 的 研究 实际 上 也 表明 , 受 限 于 攻击 者 掌握 的 额外 信息 ,只 要 用 户 能 够 和 
& 个 其 他 用 户 具 有 相同 的 观 影 历史 ,实际 上 攻击 者 是 没有 办 法 区 分 他 们 的 。 虽 然 攻 击 者 无 
法 确定 到 底 哪 一 个 id 是 他 的 攻击 目标 ,但 是 实际 上 他 已 经 获得 了 该 用 户 的 所 有 观 影 历 史 ， 
也 达到 了 一 定 的 攻击 目标 ,即使 其 达到 的 攻击 目标 与 用 户 身份 无 关 。 

除了 需要 解决 -匿名 模型 本 身 的 缺陷 导致 数据 匿名 不 足 的 问题 ,当前 的 数据 隐私 保护 
方案 还 需要 抗衡 数据 去 匿名 算法 的 攻击 。 随 着 大 数据 技术 的 不 断 发 展 ,数据 持 有 者 自然 地 
希望 获得 更 多 用 户 数据 以 综合 分 析 并 发 掘 其 中 的 价值 。 在 这 种 场景 下 ,首先 需要 实现 多 源 
数据 中 的 用 户 重 识 别 , 进 而 实现 用 户 数据 融合 。 多 源 数据 融合 场景 中 的 用 户 重 识别 实际 上 
就 是 根据 异 源 数据 的 额外 信息 确定 用 户 身份 的 去 匿名 化 攻击 过 程 。 根 据 异 源 数据 的 来 源 和 
精确 程度 不 同 , 去 匿名 化 攻击 可 分 为 3 种 : 基于 特定 模式 精确 匹配 的 去 匿名 、 基 于 种 子 匹配 
的 去 匿名 和 基于 相似 度 匹 配 的 去 匿名 。 

基于 特定 模式 精确 匹配 的 去 匿名 算法 无 法 抵抗 噪声 影响 。 一 旦 数据 经 上 述 某 种 匿名 化 
算法 引入 噪声 ,就 不 再 有 效 了 。 

上 文 提 到 的 针对 Netflix 数据 的 攻击 实际 上 是 一 种 基于 种 子 匹配 的 去 匿名 攻击 。 在 这 
类 方案 中 ,攻击 者 首先 需要 了 解 一 定数 量 的 用 户 在 两 个 图 之 间 的 节点 对 应 关系 (种 子 匹配 ) 。 
算法 从 种 子 匹 配 出 发 ,计算 不 同 网 络 中 的 连接 节点 间 的 相似 度 , 并 将 相似 节点 进行 匹配 ,从 
而 实现 多 网 络 间 用 户 身 份 的 重 识别 。 

基于 相似 度 匹 配 是 在 不 具有 先 验 知识 (种 子 数据 ) 的 情况 下 普遍 采用 的 去 匿名 方法 。 
Cao 等 人 中 基于 MapReduce 框架 进行 异 源 轨迹 数据 的 用 户 重 识别 。 数 据 预 处 理 把 轨迹 处 
理 为 停留 点 (stay point) 集合 ,然后 对 比 潜在 用 户 的 SIGCsignal based similarity) 判 断 这 些 
用 户 是 否 为 同一 个 人 。 在 这 个 模型 中 ,将 用 户 停留 点 分 为 核心 地 点 和 普通 地 点 ,核心 地 点 发 
出 刺激 信号 ,普通 地 点 不 发 出 信号 ,而 是 收 到 随 距 离 衰减 的 刺激 信号 。 两 个 用 户 轨迹 中 的 点 
的 SIG 相似 性 越 高 , 越 可 能 是 同一 个 人 在 不 同 数据 源 留 下 的 轨迹 。 

综 上 所 述 ,可 以 看 到 ,k- 匿 名 模型 的 相关 研究 实际 上 陷入 了 很 大 的 困境 。 正 如 上 文 所 
述 ,&- 匿 名 模型 仅 适用 于 存在 明确 准 标识 符 的 数据 ,而 不 适用 于 当前 大 数据 时 代 规 模 庞大 的 
非 表 结构 数据 ,其 使 用 范围 有 限 。 其 次 ,大 量 的 去 匿名 算法 试图 通过 模糊 的 种 子 匹配 和 相似 
度 匹 配 算 法 识别 出 最 相近 的 用 户 , 从 而 避免 了 k- 匿 名 算法 对 精确 匹配 算法 造成 的 干扰 , 仍 
上 昌 汇 露 了 用 户 的 特征 ,大 大 削弱 了 -匿名 算法 的 保护 能 力 。 但 -匿名 模型 作为 经 典 的 身份 
隐私 保护 模型 仍 在 实际 隐私 保护 应 用 中 发 挥 作用 ,可 为 用 户 提供 一 定 的 隐私 保护 。 


5.2.2 属性 匿名 


l. Bx 
在 5.2. 1 节 中 讨论 的 三 匿名 模型 能 够 用 来 防止 链接 攻击 ,避免 攻击 者 唯一 地 识别 出 攻 
击 目标 。 那 么 ,在 发 布 的 匿名 数据 满足 &- 匿 名 模型 的 情况 下 ,是 不 是 攻击 者 就 不 能 从 中 推 
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测 出 用 户 的 其 他 隐私 信息 ? 在 经 过 人 -匿名 处 理 后 的 数据 集中 ,攻击 目标 至 少 对 应 于 & 个 可 
能 的 记录 。 但 这 些 记 录 只 满足 准 标识 符 信息 一 致 的 要 求 , 而 非 准 标识 符 数据 和 敏感 数据 保 
持 不 变 。 正 如 在 5. 2. 1 节 分 析 Netflix 隐私 泄露 事件 时 所 讨论 的 ,如 果 这 个 用 户 的 观 影 记 
录 相 同 或 非常 接近 ,攻击 者 也 能 够 获得 用 户 的 所 有 观 影 历史 ,分 析 用 户 的 隐私 属性 。 例 如 ， 
这 & 个 用 户 都 喜欢 看 海洋 纪录 片 ,分 析 的 结果 是 攻击 目标 可 能 是 环保 主义 者 。 在 上 -匿名 的 
数据 记录 中 ,如 果 记 录 的 敏感 数据 接近 一 致 或 集中 于 某 个 属性 ,攻击 者 也 可 以 唯一 或 以 极 大 
概率 确定 数据 持 有 者 的 属性 。 这 类 攻击 称 为 同 质 攻击 。 


2. -匿名 模型 的 变 体 

人 们 首先 在 -匿名 模型 的 基础 上 进行 了 一 系列 改进 ,试图 抵抗 同 质 攻 击 。 

Zhang 等 人 加 提出 了 (CA,e)- 匿 名 模型 ,主要 处 理 数值 型 敏感 属性 数据 。(&,e)- 匿 名 的 
思想 是 : 要 求 每 个 等 价 类 中 元 组 个 数 至 少 是 上 个 ,同时 等 价 类 中 敏感 属性 取 值 范围 不 能 小 
于 给 定 的 闪 值 ,也 就 是 要 求 等 价 类 中 敏感 属性 的 最 大 值 与 最 小 值 的 差 至 少 是 e。 

Wang 等 人 中 提出 了 (X,Y)- 匿 名 的 概念 。 其 中 ,X、Y 为 不 相交 的 属性 集 。 在 这 种 方案 
中 ,讨论 了 数据 库 表 中 多 条 记录 代表 同一 个 数据 持 有 者 的 情况 。 在 此 类 情况 下 ,多 条 记录 的 
准 标识 符 值 相同 或 者 基本 相同 ,很 有 可 能 被 划分 到 同一 等 价 类 中 。 简 单 的 及 匿 名 要 求 难以 
实现 对 用 户 隐 私 的 保护 。 为 此 ,他 们 提出 ,在 属性 组 X 中 的 属性 均 相 同 的 情况 下 ,每 一 组 X 
均 需 对 应 至 少 & 个 不 同 的 敏感 属性 组 Y 中 的 值 。 这 种 方案 在 普通 有 匿名 的 基础 上 增加 了 
对 敏感 数据 的 限制 条 件 。 因 此 ,能 够 提供 比 太 匿名 更 好 的 保护 。 

为 避免 用 户 敏感 属性 被 推测 ,在 社交 网 络 中 出 现 大 量 基 于 全 匿名 聚 类 的 改进 算法 。 
Ford 等 人 中 提出 了 p sensitive &- anonymity 方法 ,要 求 聚 类 中 节点 数 大 于 或 等 于 ,并 且 不 
同 敏感 值 属性 个 数 大 于 或 等 于 po Sun 中 在 此 基础 上 提出 了 p+ sensitive k-anonymity Jf 
法 ,该 方法 采用 敏感 属性 值 的 类 别 概念 ,要 求 敏 感 属性 值 的 类 别 至 少 出 现 p 类 。 


3. 上 多样 化 模型 
Machanavajjhala 等 人 中 提出 了 多 样 化 (Ldiversity) 这 一 新 的 模型 ,要 求 在 准 标识 符 
相同 的 等 价 类 中 ,敏感 数据 要 满足 一 定 的 多 样 化 要 求 。 他 们 通过 来 定义 数据 的 多 样 化 程 
BE BEM T Hil LEAK Centropy Ldiversity) 的 概念 。 
3EXLS-5C LBL) — 如 果 对 每 一 个 泛 化 的 g* IA EL — D pet ,slogpa* o > 
5ES 
log! I A Vz dei ER 多 样 化 。 


其 中 pot vy Em 为 gx 记录 组 中 敏感 值 等 于 * 的 记录 所 占 的 比例 。 但 是 ,这 一 
要 求 过 于 严格 。 如 果 表 格 中 90% 的 用 户 敏感 属性 都 是 “健康 ”,g * ic SEL PO Hi. 上 多样 化 很 
可 能 只 有 极 少 数 不 是 “健康 ”, 从 而 使 得 该 g * 记录 组 无 法 满足 炉 二 多 样 化 的 要 求 。 

递归 (c,7) 多 样 化 (recursive(c,1)-diversity) 在 此 基础 上 降低 了 多 样 性 的 要 求 ,并 假设 不 会 
影响 到 用 户 隐 私 的 属性 可 以 公开 ,不 将 其 作为 敏感 值 进行 保护 ,例如 用 户 “ 健 康 ” 这 一 属性 值 。 

定义 $-6( 递 归 (c,D)- 多 样 化 ) 将 每 一 个 gx 元 组 中 用 户 敏 感 值 按照 出 现 的 频繁 程度 降 
序 排列 ,其 出 现 次 数 分 别 为 ry ore ，,… ,rr ,如 果 对 每 一 个 gx 元 组 ,存在 7 过 cri 十 ini 十 … 十 
Tm) , 即 最 频繁 的 属性 频率 x, 不 超过 最 不 频繁 的 mm 一 (1 一 1) 个 属性 的 频率 之 和 的 c 倍 , 那 么 
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该 表 满 足 递归 (c,7)- 多 样 化 。 

Machanavajjhala 等 人 也 进一步 分 析 了 用 户 敏 感 属 性 值 公开 和 多 敏感 属性 公开 的 进 一 
步 影响 。 

Xiao 等 人 53 提出 了 基于 分 割 方法 的 实现 方案 。 这 种 方案 中 赋予 同一 等 价 类 成 员 相同 
的 组 标识 符 ,即使 攻击 者 识别 出 目标 用 户 所 属 的 组 ,也 无 法 识别 出 等 价 类 中 的 目标 用 户 的 属 
性 值 。 


4. 近似 攻击 与 二 贴近 性 模型 

志 -多样 化 方案 仅 能 保证 敏感 属性 值 的 多 样 性 ,未 考虑 敏感 属性 值 的 分 布 情况 。 如 果 匿 
名 后 的 敏感 属性 分 布 明 显 不 符合 整体 分 布 特征 ,例如 相 较 于 人 群 平均 值 , 该 等 价 类 的 用 户 有 
更 高 的 概率 患 某 种 疾病 ,这 种 情况 也 会 对 用 户 隐私 造成 侵害 。 这 种 攻击 方式 称 为 近似 攻击 。 
因此 ,人 们 进一步 提出 志 贴 近 性 (六 eloseness) 模 型 425 。 记 贴近 模型 要 求 等 价 类 中 敏感 属性 
值 的 分 布 与 整个 表 中 的 数据 分 布 近似 。 一 个 等 价 类 是 贴近 的 ,是 指 该 等 价 类 中 的 敏感 属 
性 的 分 布 与 整个 表 的 敏感 属性 分 布 的 距离 不 超过 阔 值 :。 一 个 表 是 二 贴近 的 ,是 指 其 中 所 有 
的 等 价 类 都 是 上 贴近 的 。 

人 们 采用 EMD(Earth Mover's Distance, 陆 地 移动 者 距离 ) 来 计算 两 个 分 布 的 差距 。 
对 于 数值 型 属性 ,可 生成 天 然 的 排序 序列 ,那么 两 个 值 w 和 之 间 的 距离 可 定义 为 


ordered, wo 二 上 二 让, 其 中 ,i 和 jj 分 别 为 两 个 值 在 排序 序列 中 的 序列 号 ,该 序列 中 共有 


个 不 同 的 值 。 对 于 分 类 型 属性 ,各 个 值 之 间 不 存在 大 小 关系 ,很 可 能 各 个 分 类 值 之 间 并 无 关 
系 ,或 者 存在 偏 序 关系 。 因 此 ,分 别 定义 相应 的 距离 为 等 距 和 层次 距离 。 等 距 是 指 任意 两 个 
属性 值 间 的 距离 为 1。 层 次 距离 是 指 存 在 偏 序 关 系 的 属性 值 所 形成 的 层次 树 上 的 各 个 节点 


间 的 距离 。 两 个 叶子 节点 w 和 ww 的 距离 为 YE 如》 geo level Co co) CIS vs Al v, 
最 矮 的 共同 祖先 的 高 度 ,为 层次 树 的 高 度 。 
5.2.3 最 新 进展 


1. 多 次 发 布 模型 

在 数据 连续 、 多 次 发 布 的 场景 中 ,还 需要 考虑 到 多 次 发 布 的 统一 性 问题 。 有 很 多 方案 可 
能 在 单独 的 发 布 场景 中 都 能 够 满足 上 匿名 上 多 样 化 或 者 二 贴近 性 的 要 求 ,但 是 ,对 多 次 发 
布 的 数据 联合 进行 分 析 ,就 会 暴露 数据 匿名 的 漏洞 。Xiao 等 人 中 提出 ,可 为 不 同 的 敏感 数 
据 形成 不 同 的 签名 ,同一 个 数据 持 有 者 的 数据 总 是 和 同一 个 敏感 数据 签名 相 联系 , 即 可 使 攻 
击 者 无 法 确定 数据 持 有 者 的 真正 敏感 信息 ,也 就 是 mw 不 变 (m-invariance) 的 概念 。 此 类 方 
法 的 分 类 依据 不 是 准 标识 符 , 而 是 敏感 数据 。 每 次 分 组 时 都 形成 相同 的 敏感 数据 签名 ,同一 
分 组 内 部 的 多 个 数据 持 有 者 的 真正 敏感 值 隐藏 在 相同 的 签名 中 ,无 法 识别 。 这 种 方式 与 以 
前 的 基于 准 标 识 符 的 分 组 是 不 同 的 ,也 可 以 很 好 地 实现 匿名 保护 的 要 求 。 

但 是 ,通过 进一步 调研 发 现 ,这 种 发 布 方 式 也 不 能 完全 解决 用 户 匿名 的 要 求 。Bu 等 
人 中 提出 利用 多 表 联合 分 析 , 利 用 反 证 法 可 以 推测 出 若干 数据 持 有 者 的 真实 敏感 数据 值 。 
为 了 解决 这 个 问题 ,作者 提出 ,将 需要 保护 的 敏感 信息 和 非 敏感 信息 均 分 成 不 同 的 世系 ,并 
为 每 个 敏感 数据 值 提 供 几 个 非 敏 感 数据 值 进行 掩护 。 将 敏感 数据 和 它 的 掩护 值 放 在 一 个 签 
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名 组 中 。 在 匿名 过 程 中 ,保证 同一 世系 的 数据 (包括 敏感 数据 和 非 敏感 数据 ) 不 同时 出 现在 
同一 个 签名 组 中 , 即 可 保证 攻击 者 无 法 通过 反 证 法 推测 出 数据 持 有 者 的 真正 敏感 信息 。 

2. 个 性 化 匿名 模型 

前 述 的 隐私 保护 方案 属于 均一 化 方案 ,在 一 定 程度 上 实现 了 所 有 用 户 的 同等 程度 模糊 。 
而 实际 上 用 户 具 有 高 度 个 性 化 的 隐私 保护 需求 。 例 如 , 某 些 用 户 在 豆瓣 读书 上 将 某 书评 为 
5 E ,认为 该 信息 是 安全 可 公开 的 ;而 某 些 用 户 认为 他 人 可 能 根据 自己 的 历史 评分 信息 推测 
出 个 人 宗教 信仰 、 民 族 等 隐私 信息 ,需要 进行 严格 处 理 。 而 用 户 的 社交 关系 中 也 仅 有 部 分 特 
定 的 社交 关系 较为 敏感 ,需要 进行 专门 的 隐私 保护 。 将 用 户 的 社交 关系 隐私 与 用 户 的 身份 
隐私 剥离 ,区 分 大 量 非 敏感 社交 关系 和 部 分 特殊 敏感 社交 关系 ,不 但 符合 人 们 通常 对 私密 社 
交 关 系 的 理解 ,对 接 下 来 的 隐私 保护 工作 也 是 必要 的 。 简 而 言 之 ,个 性 化 隐私 保护 的 目标 
是 : 针对 用 户 定义 的 敏感 信息 和 与 之 密切 相关 的 其 他 信息 进行 匿名 处 理 , 保 证 敏感 信息 不 
可 被 攻击 者 推测 。 为 此 , Xiao 等 人 5 提出 了 个 性 化 隐私 保护 (personalized privacy 
preservation) 的 匿名 原则 ,针对 用 户 个 人 的 特殊 需求 ,规定 不 同 的 隐私 保护 级 别 , 避 免 了 数 
据 的 过 分 匿名 或 者 保护 不 足 的 情况 。 

个 性 化 匿名 的 思路 为 抵抗 基于 机 器 学 习 的 用 户 属性 推测 攻击 指明 了 努力 的 方向 。 毕 竟 
对 于 数据 使 用 者 来 说 ,希望 尽 可 能 保留 数据 可 用 性 。 如 果 只 需要 对 特定 属性 进行 匿名 ,从 某 
种 程度 上 可 以 较 好 地 保持 无 关 属 性 的 可 用 性 。 同 时 ,数据 发 布 者 又 可 以 针对 用 户 的 具体 隐 
私 需 求 进行 合理 匿名 。 


5.3 社交 图 谱 中 的 隐私 保护 


5.3.1 概述 


在 社会 学 中 ,将 社交 网 络 (social network) 定 义 为 许多 节点 构成 的 一 种 社会 结构 ,节点 
通常 是 指 个 人 或 组 织 ,网 络 代 表 各 种 社会 关系 ,个 人 和 组 织 通过 网 络 发 生 联系 29 。 用 图 结 
构 将 这 一 社会 结构 表现 出 来 ,就 成 为 社交 图 谱 (social graph)。 最 简单 的 社交 图 谱 为 无 向 
图 ,图 中 的 点 代表 个 人 用 户 ,无 向 边 代表 两 个 用 户 间 的 关系 是 相互 的 。 像 微 博 、Twitter 这 
类 包含 关注 和 被 关注 两 种 关系 的 社交 网 络 中 ,其 社交 图 谱 为 更 复杂 的 有 向 图 。 

属性 -社交 网 络 模 型 进一步 结合 了 用 户 属性 数据 和 社交 关系 数据 ,其 中 包含 两 类 节点 ， 
分 别 是 用 户 节 点 和 属性 节点 。 每 个 属性 节点 代表 一 个 可 能 的 属性 ,例如 ,年 龄 和 性 别 为 两 个 
属性 节点 。 每 个 用 户 可 以 有 多 个 不 同 的 属性 。 用 户 具 有 某 种 属性 , 则 在 对 应 的 用 户 节点 和 
属性 节点 间 建 立 一 条 边 , 称 为 属性 连接 。 用 户 和 用 户 间 的 朋友 关系 以 对 应 的 用 户 节点 间 的 
边 表示 , 称 为 社交 连接 。 在 图 5-3(a) 中 的 用 户 社交 关系 的 基础 上 添加 一 定 的 属性 信息 ,可 生 
成 图 5-3(b) 所 示 的 属性 -社交 网 络 图 ,其 中 方 框 代表 一 种 属性 值 , 圆 形 代表 一 个 虚拟 用 户 , 虚 
线 代表 用 户 具 有 某 属性 , 实 线 代 表 用 户 间 具有 社交 关系 。 

毫 无 疑问 ,社交 图 谱 中 包含 用 户 身 份 、 属 性 、 社 交 关 系 等 大 量 与 用 户 隐 私 相 关 的 信息 。 
由 于 社交 网 络 分 析 的 强大 能 力 ,简单 的 去 标识 化 .删除 敏 感 属性 、 删 除 敏感 社交 关系 等 手段 
无 法 达到 预期 目标 ,要 保护 的 内 容 往往 仍 能 通过 分 析 被 推测 还 原 。 具 体 而 言 ,在 社交 网 络 中 
身份 匿名 需求 具体 表现 为 图 结构 中 的 节点 匿名 , 即 在 公开 发 布 的 社交 结构 图 中 ,不 能 识别 出 
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图 5-3 社交 网 络 模 型 


某 个 匿名 节点 所 代表 的 特定 用 户 身份 。 属 性 匿名 需求 重点 表现 为 如 何 防止 攻击 者 通过 社交 
关系 分 析 推 测 属性 。 而 社交 关系 匿名 重点 在 于 如 何 防 止 攻击 者 通过 用 户 的 其 他 社交 关系 恢 
复出 已 保护 的 敏感 社交 关系 。 总 之 ,社交 网 络 隐 私 保 护 目标 为 依据 当前 社交 网 络 分 析 技 术 
能 力 , 对 社交 图 谱 进 行 足够 的 处 理 变换 ,在 可 用 性 的 前 提 下 ,合理 降低 被 保护 内 容 被 推测 的 
准确 度 。 

-匿名 模型 可 为 社交 图 谱 隐 私 保护 提供 可 量化 的 匿名 标准 。 而 前 一 节 中 提 到 的 /- 多 样 
化 贴近 性 、m- 不 变性 等 模型 也 依然 适用 。 但 由 于 社交 图 谱 中 的 核心 是 图 结构 ,其 数据 处 
理 变换 的 手段 是 改变 图 结构 及 属性 ,例如 节点 的 删除 ` 分 裂 、 合 并 ,以 及 边 的 删除 .添加 等 , 因 
此 ,本 节 重 点 介绍 针对 社交 图 谱 这 种 图 结构 特征 的 匿名 方案 。 


5.3.2 节点 匿名 


l. 问题 背景 

在 图 连接 信息 丰富 的 社交 网 络 中 ,攻击 者 可 以 通过 对 目标 用 户 的 邻居 社交 关系 所 形成 
的 独特 结构 重 识别 出 用 户 。 如 果 攻 击 者 充分 熟悉 攻击 目标 的 邻居 社区 ,也 能 够 将 攻击 目标 
缩小 到 具有 一 些 特定 邻居 结构 的 节点 集合 中 。 攻 击 者 所 掌握 的 攻击 目标 的 邻居 信息 越 充 
分 , 越 有 可 能 将 目标 唯一 地 识别 出 来 。 例 如 ,攻击 者 确定 目标 用 户 在 此 社交 网 络 中 仅 与 5 位 
用 户 有 连接 , 则 可 以 将 攻击 目标 范围 缩小 到 图 中 度数 为 5 的 节点 。 更 进一步 ,攻击 者 还 了 解 
到 5 位 朋友 中 仅 有 两 位 互 为 朋友 ,攻击 目标 的 范围 又 可 进一步 缩小 。 

在 社交 图 谱 隐私 保护 中 ,可 以 通过 3 种 问答 来 刻画 攻击 者 的 能 力 (或 者 称 为 攻击 者 的 背 
景 知识 ) ,分 别 描述 攻击 者 对 于 目标 节点 的 节点 度数 、 节 点 附近 的 子 图 形状 、 子 图 范围 内 节点 
的 连通 程度 等 的 了 解 程度 2 。 在 后 续 工 作 中 ,Lin 等 人 和 Yuan 等 人 分 别 证 明 , 通 过 社交 节 
点 的 度数 中、 子 图 相似 性 "9 均 可 识别 用 户 身 份 。 攻 击 者 的 攻击 方式 划分 为 主动 、 半 主动 和 
被 动 攻击 3 AO 。 其 中 ,主动 攻击 指 攻击 者 有 能 力 修改 与 影响 社交 图 谱 。 例 如 ,攻击 者 可 
以 在 匿名 图 发 布 之 前 主动 生成 一 系列 账号 ,生成 可 识别 的 结构 ,通过 识别 该 结构 而 进一步 识 
别 出 与 之 相连 的 攻击 目标 。 被 动 攻 击 指 攻击 者 不 采取 任何 主动 行为 , 仅 通过 已 发 布 的 图 谱 
信息 识别 出 目标 节点 。 这 类 攻击 方式 更 为 隐蔽 ,对 背景 知识 的 要 求 更 高 。 半 主动 攻击 方式 
介 于 上 述 两 者 之 间 , 攻 击 者 可 生成 一 系列 账号 , 视 攻击 目标 的 可 识别 程度 决定 是 否 主 动 添加 
与 攻击 目标 的 关联 。 

针对 上 述 攻击 ,节点 匿名 的 目标 是 通过 添加 一 定 程 度 的 抑制 .置换 或 扰动 ,降低 精确 匹 
配 的 成 功率 。 比 较 典 型 的 是 Liu 等 人 5 提出 的 图 的 人 度 匿 名 模型 和 Zou 5$ AUS 提出 的 人 
子 图 同 构 模型 。 
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2. 基于 节点 度数 的 人 匿名 方案 

简单 来 说 ,如 果 一 个 图 满足 -匿名 , 则 表明 图 中 任 一 个 节点 至 少 与 其 他 一 1 个 节点 具 
有 相同 的 度 , 利 用 节点 度 作为 背景 知识 的 攻击 者 能 够 识别 目标 个 体 的 概率 不 超过 1/k。 

定义 5-7( 向 量 k- 匿 名 ) ”如 果 整 数 向 量 v 是 及 匿名 的 ,那么 向 量 v 中 每 个 值 都 出 现 至 
少 次 。 例 如 ,向 量 v= 二 [5,5,3,3,2,2,2] 是 2- 匿名 的 。 

定义 5-8( 图 的 k- 匿 名 ) 如 果 图 G(V,E) 是 大 匿名 的 ,那么 图 G 的 度数 序列 de ERE 
名 的 。 如 图 5-4 所 示 ,(a) 为 3- 匿 名 图 ,(b) 为 2- 匿名 图 。 


e o 
(a) 3- 匿 名 图 (b) 2- 匿 名 图 
图 5-4 匿名 图 


显然 ,可 以 通过 增加 、 删 除 边 来 实现 节点 度数 的 调整 。 调 整 后 的 图 为 G, 对 应 的 边 和 度 
数 分 别 为 E 和 d。 以 单纯 增加 边 , 不 增加 节点 也 不 删除 边 的 策略 为 例 ,希望 选择 增加 度数 最 
少 的 方案 来 实现 大 匿名 , 即 实现 Ly (dd) =} | EG) —4 G) | 的 最 小 化 ,以 保持 数据 可 用 
性 。 显 然 ,只 要 找到 最 优 的 图 度数 且 匿 名 向 量 , 就 可 以 根据 该 向 量 在 原 图 基础 上 增补 出 新 
Whee el. 

将 图 中 节点 按 度数 序列 倒序 排列 并 编号 ,那么 有 CO Sd(2) > Sd (n) ,并且 对 于 i<j 
Hd (i) =d(j ) 的 情况 ,有 di)=d(i 十 1)=…=d(j 一 1)=d(j)。 对 于 节点 1 到 的 度数 
序列 d [1,n] ,其 匿名 代价 为 DA(d[1,n] )。 如 果 其 中 节点 i 到 节点 j 形成 同一 个 匿名 组 ， 














那么 将 该 组 的 匿名 代价 记 为 I(d[i,j] )。 显然 ,IT(d[i,j] ) = 2: (d (1)— 4 (L) ) AR fi RAE 


算法 的 思路 ,可 得 到 如 下 线索 : 

CD 车 图 中 节点 数 n 过 2k, 必 然 有 DA(d[1,n])=IT(d[1,n])。 

(2) Ë n>2k M] DACd [1.2] ) 一 minf min (DA(d[1«7] ) - dr 122) Ed C1 D) 

而 且 , 任 意 最 优 匿名 组 的 大 小 应 不 大 于 2k 一 1, 否 则 该 匿名 组 可 以 进一步 分 割 为 两 个 匿 
名 组 。 因 此 ,可 进一步 优化 递归 匿名 的 范围 为 max{k.n 一 2k 十 1} 三 tn 一 &,(2) 中 的 递归 
部 分 改写 为 DA (d[1.n]) 2 mn (Z5, (DA (d [1.2] ) -IXa[e- 1.2 D -IC4[1.n D). H 
选择 合适 的 上 , 贪 禁 算 法 需要 在 分 组 的 时 候 衡量 当前 节点 并 和 人 上 一 分 组 还 是 作为 下 一 分 组 
的 起 始 节点 。 以 & 十 1 节点 为 例 ,前 个 节点 已 形成 上 一 分 组 ,当前 节点 并 入 上 一 分 组 的 代 
WH Caere = (d(1) 一 d(k 十 1)) 十 TC(d[k 十 2,2k 十 1]), 作 为 新 分 组 起 始点 的 代价 为 
Coew 二 TCd[R 十 1,2k])。 如 果 Crrcege Cus ,那么 & 十 1 节点 作为 新 分 组 的 起 点 ,并 继续 处 理 新 
分 组 的 节点 ;否则 ,& 十 1 节点 并 人 上 一 分 组 ,算法 继续 考虑 & 十 2 节点 是 否 需 要 并 入 上 一 分 组 。 

基于 以 上 贪 禁 算法 ,可 以 构建 调整 后 的 图 : 

CD 根据 贪 禁 算法 ,计算 调整 后 的 度数 序列 。 

(2) 根据 调整 后 的 度数 序列 为 G 增加 新 的 边 。 
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(2.1) 更 新 每 个 节点 需 增 加 的 度数 aw) 。 

(2.2) 随机 选择 度数 a(v) 非 零 的 节点 v^ ,在 不 增加 重复 边 的 前 提 下 ,将 其 与 具有 最 大 
a(v) 值 的 节点 wv 连 一 条 边 ,更 新 两 个 节点 的 a(v) 值 。 

(2.3) 重复 步骤 (2.2) ,直到 所 有 节点 的 a(v) 值 为 0。 

(3) 如 果 第 (1) 步 中 调整 后 的 度数 序列 无 法 形成 图 , 则 随机 调整 原 图 的 节点 度数 d, 重 
新 执行 第 (1) (2) 步 。 

此 外 ,Liu 等 人 还 给 出 了 放松 条 件 下 的 及 匿名 算法 。 


3. 基于 自 同 构 的 kk- 匿名 方案 

若 攻 击 者 具备 更 多 背景 知识 , 则 仅 做 到 基于 节点 度数 的 大 匿名 并 不 能 达到 节点 匿名 的 
目的 。 人 们 后 来 又 陆续 提出 了 多 种 变 体 ,包括 基于 已 知 相 邻 节点 的 度数 中、 邻居 结构 中 等 
条 件 下 的 二 匿名 方案 。 为 了 更 好 地 适应 攻击 者 能 力 的 提升 ,Zou 等 人 [加 提出 了 一 种 更 具 一 
般 性 的 匿名 化 算法 ,使 得 匿名 化 的 图 具备 自 同 构 性 。 此 时 任何 基于 图 结构 的 攻击 都 将 失效 ， 
因为 对 于 任意 节点 总 是 存在 一 1 个 其 他 节点 与 其 具有 相同 的 图 结构 。 

定义 5-9( 图 的 同 构 ) APAR G —(O, Efl G= (V.E). K G 5 G 同 构 , 当 且 仅 
当 存 在 一 个 双向 映射 f. Vi >V: ,使 得 对 于 任意 边 ( 0 € E, fÉfECAÉGuO fo) € Ez, 

定义 5-10( 自 同 构图 ) MRR G 上 存在 一 个 映射 了 ,使 得 对 于 任意 边 e 二 (u,v) ,存在 
Fe) 一 (FCGo ,Fo)) 同 样 是 G 中 的 边 , 称 图 G 是 自 同 构 的 。 即 图 在 映射 了 作用 下 与 其 自身 
同 构 。 如 果 图 G 上 存在 k 个 自 同 构 ,也 就 是 存在 & 一 1 个 不 同 的 自 同 构 映 射 。 例 如 图 5-5 为 
一 个 自 同 构图 的 若干 同 构图 。 





$ 6 2 1 6 5 
3 4 4 3 4 3 
1 2 5 6 2 $ 


图 5-5 自 同 构 图 示例 


显然 ,如 果 图 G 是 & 自 同 构 的 ,那么 其 中 的 任意 节点 至 少 与 其 他 一 1 个 节点 无 法 通过 
结构 信息 区 分 。 对 于 图 G 的 任意 查询 ,如 果 存 在 1 个 匹配 的 用 户 节点 ,那么 必 将 存在 其 他 
一 1 个 节点 也 是 匹配 的 。 可 通过 以 下 步骤 获得 自 同 构 匿 名 图 : 

(1) 去 除 图 中 节点 的 标识 符 信息 。 

(2) 划分 图 为 个 区 域 。 

G) 分 别处 理 个 区 域 .使 其 同 构 。 

Zou 等 人 提出 了 一 种 优化 的 及 Match 算法 来 构建 自 同 构图 。 算 法 步骤 如 下 : 

CD 去 除 G 中 的 标识 符 信息 ,生成 G'。 

(2) 将 G' 分 为 n 个 block, 并 将 这 些 block FAH m 个 分 组 ,保证 每 个 分 组 至 少 包含 
个 block。 

(3) 对 于 任意 分 组 : 

CD 对 组 内 的 block 进行 处 理 , 使 其 同 构 。 

© 将 同 构 block 替换 原 block. 
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(4) 将 跨 block 的 边 连接 复制 到 对 应 的 顶点 之 间 。 

其 中 ,为 构建 最 优 同 构 block, 需 选择 代价 最 小 的 节点 映射 。 但 最 优 映射 的 选择 是 NP 
困难 问题 ,因此 ,可 通过 启发 式 算法 寻找 近似 解 。Zou 等 人 通过 宽度 优先 搜索 按 度数 为 每 个 
block 中 的 节点 排序 ,指定 在 各 block 中 顺序 相同 的 节点 互 为 映射 。 然 后 再 根据 映射 节点 对 
应 关系 表 , 并 依据 原始 block 中 的 边 , 向 其 他 同 构 block 中 增添 对 应 的 边 ,其 过 程 如 图 5-6 
所 示 。 














sus 























图 5-6 block 同 构 步骤 示意 图 


k-Match 算法 的 优势 在 于 ,将 同 构 处 理 的 范围 大 大 缩小 ,降低 了 数据 失真 的 程度 。 但 同 
时 也 可 以 看 出 ,步骤 (2) 中 对 图 G' 的 block 分 割 以 及 聚 类 分 组 的 结果 对 步骤 (3) 具 有 重要 影 
响 。Zou 等 人 在 其 论文 中 也 讨论 了 block 的 选取 等 。 

Cheng 等 人 [ 吧 提 出 的 上 同 构 匿 名 化 算法 进一步 确保 了 边 的 匿名 性 : 攻击 者 甚至 不 能 推 
测 出 两 个 节点 之 间 是 否 有 边 。 此 类 算法 可 以 看 作 基于 图 结构 的 “终极 ”防护 。 从 基本 的 度 匿 
名 到 同 构 匿名 ,节点 在 更 多 社交 结构 特征 上 更 加 近似 ,攻击 者 识别 出 某 特定 节点 的 难度 也 随 
之 增 大 ,因此 可 以 有 效 地 保护 用 户 的 隐私 。 但 需要 指出 的 是 , 随 着 匿名 方案 的 安全 性 增强 ， 
对 图 做 出 的 改动 也 越 来 越 大 ,严重 影响 数据 的 可 用 性 。 例 如 ,在 Wu 等 人 中 的 实验 中 ,来 自 
数据 库 和 计算 理论 领域 的 科学 家 合作 关系 图 需要 添加 约 70% 的 边 才能 满足 自 同 构 性 。 


5.3.3 边 匿 名 


1. 问题 背景 

用 户 的 社交 关系 隐私 是 指 用 户 某 些 特定 的 秘密 连接 不 希望 披露 给 公众 ,也 不 希望 与 此 
连接 无 关 的 公众 可 以 推测 这 些 秘密 连接 的 存在 5 。 数 据 发 布 者 需要 有 能 力 保证 这 些 私密 
社交 关系 的 匿名 性 。 

为 了 杜绝 秘密 连接 关系 的 泄露 ,最 直接 的 方案 就 是 在 数据 发 布 时 将 对 应 的 边 删 除 。 但 
是 ,这 种 方案 并 不 能 降低 此 边 连 接 被 推测 得 出 的 概率 。 研 究 表 明 ,基于 用 户 的 基本 社区 结构 
(community) 可 预测 和 恢复 用 户 社交 结构 中 缺失 的 连接 。 例 如 ,Newmant5 通 过 研究 论文 
合作 者 网 络 发 现 ,如 果 两 者 各 自 的 合作 者 重合 数目 越 多 ,两 者 越 倾 向 于 相互 合作 , 亦 即 建立 
连接 。Adamic 等 人 [9 分 析 了 节点 间 共 同 朋 友 的 度数 与 节点 间 建 立 连 接 可 能 性 之 间 的 关 
Ro Zhou 等 人 r 涪 建立 了 资源 分 配 模型 ,认为 当 从 节点 a 流 到 节点 6 的 资源 越 多 ,两 者 间 建 
立 连接 的 可 能 性 越 高 。Lichtenwalter 等 人 5 提出 了 一 种 限制 随机 游 走 的 PropFlow 方法 ， 
通过 计算 在 1 步 内 从 节点 v 走 到 节点 7 的 概率 ,推测 不 同 连接 关系 存在 的 概率 。 

这 类 方案 的 基本 假设 是 : 用 户 间 的 社交 距离 越 近 , 则 越 可 能 建立 社交 关系 。 也 就 是 说 ， 
用 户 更 可 能 和 熟人 的 熟人 建立 新 的 连接 。 例如, Newman 等 人 定义 两 个 用 户 在 时 刻 t 建立 
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连接 的 概率 为 P, (7) ,其 中 m 为 两 者 的 共同 朋友 数 。 这 一 概率 可 计算 为 


na G) 


P.(t)— 1 R 


INON] 
nm(t) 为 m 个 共同 朋友 中 互相 之 间 的 连接 数目 ; N (zt) 是 网 络 中 所 有 的 用 户 数 目 ; R, 二 
A— Be" ,A、B、mo 是 与 网 络 相关 的 经 验 参 数 。 显 然 , 两 者 的 共同 朋友 越 多 ,共同 朋友 间 
的 连接 越 多 ,两 者 越 可 能 成 为 朋友 。 

目前 较为 流行 的 典型 的 用 户 社交 关系 推测 方法 包括 以 下 几 种 25] . 

COD 共同 邻居 方法 (common neighbour): 该 方法 定义 用 户 间 关 系 程度 的 打分 标准 为 其 
共同 朋友 集 的 大 小 , 即 S™ (xz,y) 二 |N(z) 由 N(y)|, 其 中 N(xz) 和 NN(y) 分 别 表示 用 户 x 
和 y 的 朋友 集 。 

(2) AA IndexCAdamic-Adar Index) : 该 方法 更 进一步 考虑 了 用 户 间 的 共同 朋友 的 度 
数 ,定义 打分 标准 为 


1 


SAA "4 — Ó—€— 
S" Gy) log k(z) 


ZEN CZD NN CY) 


k(z) 为 用 户 x 的 度数 。 
(3) RA Index(Resource Allocation Index) : 该 方法 将 两 者 建立 关系 的 可 能 性 模拟 为 两 
者 间 资 源流 动 的 比例 ,因此 ,打分 公式 更 新 为 
SRA (z,y)= 


zENCXINNCGYD kG) 
(4) Katz Index: 该 方法 认为 , 若 两 个 用 户 之 间 的 短路 径 连 接 越 多 , 则 他 们 越 有 可 能 成 
为 朋友 。 因 此 ,该 方法 提出 了 一 种 基于 路 径 的 打分 公 


SK (x,y)— > B | pathst,, | 
l=1 


其 中 有 为 调整 参数 ,pathst,, 为 从 z 到 y 的 路 径 中 长 度 为 1 的 所 有 路 径 。 

(5) Rooted PageRank Index: 该 方法 利用 图 上 的 随机 游 走 过 程 定义 两 个 节点 间 建 立 联 
系 的 可 能 性 ,其 中 从 每 个 节点 工 出 发 ,有 1-9 的 可 能 性 返回 zx, 以 8 的 可 能 性 随机 到 达 xz 的 
某 一 个 邻居 。A 为 该 图 的 邻接 矩阵 表示 。 定 义 矩 阵 了 ,其 中 D; = 1/ Ay Djs = 0.58 
阵 工 = DA, 得 到 SR = (1-8) — 8T)? ,I 为 单位 矩阵。 

从 本 质 上 来 说 ,这 些 方法 都 是 试图 从 各 种 方面 衡量 用 户 间 的 社交 距离 。 显 然 ,社交 距离 
近 的 人 更 容易 彼此 成 为 朋友 。Lv 等 人 中 提出 ,对 于 某 些 社区 ,用 户 的 弱 连 接 对 于 预测 新 的 
朋友 更 有 意义 。 因 为 强 连 接 带 来 的 朋友 很 可 能 已 经 成 为 用 户 的 朋友 。 

此 外 ,在 社交 网 络 中 还 可 将 用 户 的 所 有 朋友 根据 其 经 历 、 属 性 等 的 不 同 分 成 若干 子 群 
(subgroup) ,同一 子 群 内 部 的 用 户 更 相似 ,社交 关系 也 更 紧密 。Wu 等 人 中 认 为 ,攻击 者 可 
以 借助 于 分 析 子 群 中 其 他 用 户 的 社交 结构 ,对 目标 用 户 可 能 具有 的 连接 进行 推测 。Feng 等 
ACSHESE AE 3E. 社交 网 络 的 集聚 特性 对 于 关系 预测 方法 的 准确 性 具有 重要 影响 。 随 着 社 
交 网 络 局 部 连接 密度 增长 ,集聚 系数 增 大 ,连接 预测 算法 的 准确 性 也 会 进一步 增强 。 在 
Feng 4& A99 的 实验 中 ,虚拟 数据 集 的 集聚 系数 C 越 来 越 大 ,任意 预测 算法 的 准确 率 已 都 有 
明显 上 升 ,如 图 5-7 所 示 。 这 一 研究 从 宏观 上 表明 ,用 户 所 在 的 群 组 关系 越 稠密 ,用 户 的 社 
交 关 系 越 容易 被 推测 。 这 实际 上 是 用 户 间 社交 距离 近 的 另 一 种 表述 方式 。 将 群 组 的 概念 引 
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入 社交 关系 分 析 更 加 强化 了 近 距 离 的 社交 关系 的 重要 性 。 














0.1 02 0.3 0.4 0.5 0.6 


图 5-7 社交 关系 预测 准确 率 与 集聚 系数 的 相关 性 


社交 关系 匿名 有 两 个 主要 的 技术 思路 : 其 一 是 通过 节点 匿名 保护 节点 所 代表 的 真实 用 
户 身份 ,从 而 达到 保护 用 户 间 社 交 关 系 的 目的 ;其 二 是 在 节点 身份 已 知 的 前 提 下 ,通过 对 图 
中 其 他 边 数 据 的 扰动 ,降低 某 个 隐藏 社交 关系 被 推测 出 来 的 可 能 性 。 本 节 对 这 两 种 技术 思 
路 分 别 选取 了 一 个 典型 代表 予以 介绍 。 


2. 基于 超级 节点 的 匿名 方案 

基于 超级 节点 的 匿名 方案 的 基本 思路 是 ,通过 节点 聚 类 ,形成 超级 节点 和 超级 边 ,因而 
形成 事实 上 的 等 价 类 ,使 得 用 户 身份 .用 户 社 交 关系 不 可 区 分 ,达到 隐藏 真实 社交 关系 的 
目的 。 

典型 的 算法 5 通常 将 节点 分 为 多 个 类 ,然后 将 同一 类 内 的 节点 压缩 为 一 个 超级 节点 ， 
两 个 超级 节点 之 间 的 边 只 发 布 连接 数目 而 不 再 发 布 具体 连接 关系 。 在 发 布 的 匿名 图 中 ,所 
有 超级 节点 内 部 的 节点 和 连接 都 被 隐藏 ,超级 节点 间 的 连接 也 无 法 确定 连接 的 具体 真实 

下 面 重点 介绍 基于 属性 -社交 网 络 的 聚 类 匿名 方法 G9 。 在 图 GCV,E,R) 中 ,不 但 包含 
VE 构成 的 社交 结构 ,每 个 节点 还 包括 一 些 准 标识 符 的 集合 ,例如 年 龄 或 者 性 别 。Tassa 等 
人 给 出 了 基于 属性 -社交 网 络 的 聚 类 匿名 方法 ,其 匿名 结果 如 图 5-8 所 示 。 聚 类 中 的 节点 记 
为 C, — Uo, Un, om 上 节点 对 应 的 属性 记 为 RR = (R, 1) +R, (2) 347R, (1) ) EA, XA; X+ 
XAi 为 原始 m 条 记录 的 最 小 泛 化 。 

首先 需要 定义 如 何 衡量 在 寻找 最 小 泛 化 和 聚 类 的 过 程 中 的 信息 损失 。 

定义 5-11( 信 息 损 失 ) 对 于 社交 网 络 SN 和 对 应 的 聚 类 C 来 说 ,将 SN 替换 为 SNc 的 
信息 损失 可 表示 为 : 1(C) o * Ip(C) 十 (1 一 w)1s(C)。 其 中 ,w 为 权重 参数 ,1p (C) 为 用 户 
属性 泛 化 过 程 中 的 描述 信息 损失 ,Is (C) 为 聚 类 过 程 中 的 结构 损失 。 
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Ga) ([20-25], *) 
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Ga ([25-30], F) 
(26, F) (25, F) 


(25, F) 
图 5-8 匿名 结果 示意 图 
泛 化 属性 R;(i) 的 大 小 ,| | 是 属性 A; 的 值 域 所 包含 的 值 的 个 数 . 对 于 整个 聚 类 C 来 说 ， 
T 
IC) yD EAA AY 


定义 5-13( 结 构 损失 ) RRIA RK A RARR E ZU LAS EDT. R 
类 内 部 结构 损失 是 指 聚 类 内 部 的 具体 节点 间 连 接 信息 的 损失 ,因此 ,以 错误 识别 一 对 节点 间 存 


在 连接 的 概率 来 定义 信息 损失 。 对 聚 类 CBE Isa (C): = 2e (ITE er): 


e, 为 聚 类 内 部 的 连接 数目 。 聚 类 间 的 结构 损失 是 指 不 同 聚 类 间 的 具体 节点 的 连接 信息 的 
损失 ,同样 以 错误 识别 一 对 节点 间 存 在 连接 的 概率 来 定义 。 对 聚 类 C, 和 C, 来 说 ， 


Isa (C56) 2o (Y Teper > trt C= toos croi 








T 
4 ~ ^n 
Iss (O7 gay - p Dye G+ 22 10062] 


根据 信息 损失 的 定义 ,可 以 给 出 聚 类 算法 。 以 Tassa 等 人 给 出 的 顺序 聚 类 (squential 
clustering) 算 法 为 例 , 该 算法 首先 随机 地 将 全 图 的 节点 分 到 工 个 聚 类 中 ,然后 算法 循环 计算 
所 有 N 个 节点 是 否 可 移动 到 其 他 聚 类 中 ,以 减少 信息 损失 ,直到 聚 类 稳定 。 算 法 的 具体 描 
述 如 下 : 

CD 将 节点 集合 V 随机 分 割 为 工 个 聚 类 C= {Ci ,C;,…,Cr}), 每 个 聚 类 的 节点 数目 为 
ko 或 者 名 十 1, 其 中 ko 二 ak, 与 & 和 参数 a 相关 (a 二 0.5 时 分 组 效果 较 好 ) 。 

(2) 对 于 每 一 个 节点 : 

(2.1) 当前 节点 v, 属于 聚 类 C,, 对 于 任意 其 他 聚 类 C, ,计算 节点 v, PLC, 移动 到 C, 所 
造成 的 信息 损失 变化 。 

(2. 2) 选择 信息 损失 变化 最 小 的 聚 类 C, ,并 将 节点 v MC, 移动 到 C， 。 

(2.3) 如 果 存 在 节点 数 大 于 k 的 聚 类 , 则 将 其 分 为 两 个 等 大 的 聚 类 ,其 中 心 王 胸 , 与 人 
和 参数 B 相关 (8=1. 5 时 效率 较 好 ) 。 

(3) 如 果 存 在 若干 节点 数 小 于 & 的 聚 类 ,将 其 与 最 接近 的 聚 类 融合 。 

基于 超级 节点 匿名 方法 基于 聚 类 节点 信息 的 统计 发 布 ,避免 了 攻击 者 识别 出 超级 节点 
内 部 的 真实 节点 ,能 够 实现 用 户 隐私 保护 。 但 实际 上 ,这 种 方法 提供 了 远 超 用 户 需求 的 匿名 
保护 ,因为 非 私 密 的 社交 关系 也 一 并 被 隐藏 。 这 种 方案 大 大 改变 了 图 数据 的 结构 ,使 得 数据 
的 可 用 性 大 为 降低 。 


3. 基于 扰动 的 匿名 方案 
通过 边 扰动 也 可 以 实现 社交 关系 隐藏 。 其 基本 思想 是 : 根据 节点 的 不 同 特征 ,将 其 划 
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分 为 不 同 的 等 价 类 ,然后 将 部 分 社交 连接 的 项 点 用 其 相同 等 价 类 的 其 他 顶点 蔡 换 ,达到 隐藏 
真实 社交 关系 的 目的 。 举 例 来 说 , 若 攻击 者 掌握 关于 节点 度数 的 背景 知识 ,那么 可 以 采用 基 


于 度数 的 边 交换 方法 co ,从 等 价 类 中 选择 度数 符合 

特定 要 求 的 节点 交换 它们 原 有 的 连接 (如 图 5-9 所 © © Q © 
示 ) ,包括 随机 删 边 、 随 机 扰动 .随机 交换 等 方法 。 其 = 

中 随机 删 边 的 方法 等 概率 地 从 图 中 选取 一 定 比例 的 

边 ,然后 删除 这 些 边 。 随 机 扰动 的 方法 先 以 相同 方式 O © O ® 
删除 一 定 比例 的 边 ,然后 再 随机 添加 相同 数量 的 边 ， 图 5-9 边 交换 示意 图 


使 得 匿名 化 后 的 图 与 原 图 边 数 相等 。 随 机 交换 的 方 
法 首先 随机 选取 两 条 边 (i sja ) I Gs ,js ) ,然后 删除 这 两 条 边 ,并 添加 两 条 新 的 边 (i ,js ) 和 
(in oii) ,前 提 是 这 两 条 边 原先 并 不 存在 。 基 于 交换 的 方法 不 仅 保 证 了 总 边 数 不 变 ,也 保证 
了 每 个 节点 的 度数 不 变 。 

下 面 介绍 一 种 基于 随机 游 走 进行 边 交 换 的 算法 中 以 及 相应 的 信息 损失 和 隐私 衡量 方 
法 。 该 算法 假定 对 于 每 条 边 (u.v) «JA v 开始 进行 指定 长 度 的 随机 游 走 ,最 终 到 达 >, 然后 将 
原来 的 边 (usv) RER (uoz) ,由 于 算法 在 图 上 不 断 游 走 , 从 每 个 节点 转移 到 下 一 个 节点 的 
概率 与 该 点 的 度数 密切 相关 。 当 节点 v Bit l 步 游 走 之 后 交换 边 ,从 而 生成 新 的 图 ,新 图 与 
原 图 相 比 产生 了 一 些 信息 损失 ,可 通过 转移 概率 的 变化 来 描述 。 相 对 于 其 他 随机 增删 、 交 换 
的 方案 ,基于 随机 游 走 的 交换 方案 保持 了 用 户 的 连接 可 用 性 以 及 图 的 一 些 宏观 上 的 连接 特 
征 , 避 免 了 无 序 和 无 意义 的 扰动 。 

定义 5-14( 节 点 转移 概率 ) ”节点 间 的 转移 概率 形成 矩阵 P, 其 中 节点 i 和 j 间 的 转移 
概率 为 


1 四 
p, = | deg” 车 (i,j) 为 G 中 的 边 


0， 其 他 

当 转 移 上 次 之 后 ,用 户 所 处 的 状态 (位 置 ) 为 OO AL a(t) = 2 (0) + Po. GFE AGE 
稳定 后 ,可 以 得 到 =r * P. 

定义 5-15( 可 用 性 ) 图 G 经 过 1/ 步 游 走 之 后 生成 G' ,定义 两 图 节点 转移 概率 矩阵 的 距 
离 为 图 的 可 用 性 变化 , 即 VU (v.G.G’ 1) =distance( Pi (G). PL (G' )) HEP Ps 为 矩阵 P' 
的 第 v 行 。 其 平均 值 记 为 所 有 节点 可 用 性 变化 的 平均 值 , 即 

distance( P^ (G), P^ (G' )) 
» ian (G) 





VU mean G 


算法 的 具体 步 又 如 下 : 

CD 对 图 G 中 的 每 一 个 节点 , 记 其 当前 已 游 走 边 数 count=1. 

(2) 对 于 当前 节点 a 的 每 个 邻居 节点 w, 记 其 循环 次 数 为 1 。 

(3) 从 节点 vv 出 发 随机 游 走 i 一 1 步 ,到 达 游 走 终 点 z, 节 点 v 的 循环 次 数 加 1。 

(4) 如 果 第 (3) 步 中 得 到 z==u 或 者 边 (u.z) 已 经 存在 于 图 G' 中 ,重新 执行 第 (2) 步 直到 
循环 次 数 大 于 M。 

CO 若 第 (2) 步 中 得 到 合理 的 = 且 当 前 循环 次 数 小 于 M ,并 且 count 二 1, 将 边 (u,x) 加 入 
图 G’ ,count 十 1。 
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(6) 若 第 (2) 步 中 得 到 合理 的 = 且 当 前 循环 次 数 小 于 M, 但 coun-1 EL Gu z) VA — $E RIO 


概率 加 入 图 GHB AEO L ge deg(1) 为 节点 在 图 G 中 的 度数 ,count 十 1。 


Mittal 等 人 还 给 出 了 连接 隐私 的 定义 。 图 G 变换 为 CG 之 后 ,攻击 者 基于 额外 信息 H Xo 
G 恢 复出 某 条 特定 边 工 的 概率 为 PLLE GIG ,HJ, 简 化 为 PLLIG ,HJ。 SR PLLC’. H] 
值 越 小 ,隐私 性 越 好 。 根 据 贝 叶 斯 公式 ,可 得 PLLIG LH] BS. PLH 其 中 
PUL | 1 为 攻击 者 的 先 验 概 率 , PLC! | H] 可 通过 采样 技术 分 析 取 得 。P[G' | LH] = 


Dele’ 1G,]* PIG, | L. H]. 3th G, 为 包含 连接 L 的 所 有 可 能 的 图 .因此 ,PLG' | G,] 可 














由 交换 算法 分 析 得 出 ,这 一 栋 率 为 [ 二] (I). TT PHOT CO .办 此 ,可 通过 


m GEG) 
贝 叶 斯 公式 计算 得 到 攻击 者 恢复 出 连接 工 的 概率 已 [L | GLH]. 
虽然 连接 隐私 的 计算 复杂 度 较 高 ,但 通过 贝 叶 斯 公式 衡量 连接 关系 的 隐私 程度 是 社交 
关系 隐私 保护 的 重要 工具 。 


5.3.4 属性 匿名 


1. 问题 背景 

现 有 研究 表明 ,用 户 的 社交 网 络 记 录 已 经 成 为 其 隐私 泄露 的 主要 来 源 。Mislove 等 
人 5 在 研究 了 Facebook 的 用 户 数据 后 发 现 ,用 户 部 分 属性 与 其 社交 结构 具有 较 高 的 相关 
性 。 具 有 相同 属性 的 用 户 更 容易 成 为 朋友 ,形成 关系 紧密 的 社区 。 结 合 其 社交 结构 以 及 朋 
友 关 系 , 可 以 推断 出 用 户 未 标注 的 属性 。 通 过 对 4000 名 莱 斯 大 学 的 学 生 数 据 进行 实验 , 隐 
藏 部 分 用 户 的 专业 、 年 级 .居住 信息 ,结果 发 现 ,以 20% 的 用 户 信息 为 基础 ,能 够 以 极 高 的 准 
确 度 推测 某 些 用 户 的 特定 属性 ,例如 学 生 的 年 级 .居住 信息 和 高 中 信息 等 。5. 2. 2 节 中 讨论 
的 敏感 属性 匿名 保护 方法 ,如 /- 多 样 性 等 ,并 未 考虑 到 社交 图 谱 中 朋友 关系 对 属性 的 影响 ， 
因此 ,无 法 满足 社交 图 谱 中 用 户 的 隐私 保护 需求 。 

2. 基于 属性 -社交 网 络 的 属性 匿名 保护 方案 

Gundecha 等 人 [外 指出 ,用 户 个 人 信息 的 隐私 风险 与 其 朋友 的 隐私 保护 有 关 , 并 提出 了 
一 系列 衡量 隐私 安全 的 度量 指标 。 这 些 去 匿名 方案 表明 ,攻击 者 能 够 从 各 种 渠道 实现 对 用 
户 隐 私信 息 的 分 析 , 社 交 网 络 中 的 用 户 隐 私 挖掘 攻击 更 加 无 孔 不 人 。 人 们 还 通过 用 户 可 见 
的 属性 ,社交 关系 、 所 属 群 组 等 信息 来 推测 用 户 的 隐私 信息 名。 在 Getoor 等 人 的 论文 中 ， 
分 别 总 结 了 基于 关系 可 进行 的 信息 挖掘 ,包括 基于 关系 的 客体 排序 和 分 类 、 基 于 关系 的 聚 
类 、 基 于 关系 的 实体 识别 、 关 系 预测 、 子 图 发 现 等 。 其 中 ,基于 社交 关系 进行 用 户 分 类 、 用 户 
338 . 子 图 发 现 的 挖掘 很 可 能 会 发 现 用 户 所 属 的 私密 社区 ,通过 社区 中 其 他 用 户 的 属性 暴露 
用 户 的 隐私 属性 。Yuan 等 人 5 考虑 敏感 属性 信息 和 节点 度 信 息 ,采用 添加 噪声 节点 、 增 删 
边 的 方法 实现 具有 相同 度数 的 节点 满足 -匿名 ,并 且 节 点 敏感 属性 值 满足 /- 多 样 性 。Wang 
等 人 5 提出 了 一 种 基于 聚 类 的 匿名 保护 方法 ,该 方法 在 保护 用 户 身份 信息 的 同时 也 保护 了 
用 户 的 社交 关系 信息 和 敏感 属性 信息 ,非常 适用 于 属性 -社交 网 络 场景 。 

在 属性 -社交 网 络 中 ,为 实现 属性 匿名 ,需要 从 节点 、 边 、 属 性 3 方面 联合 匿名 。 为 此 ,下 
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面 给 出 属性 -社交 网 络 中 相关 概念 的 定义 。 

定义 5-16( 伪 装 社交 网 络 ) ”给 定 社交 网 络 (Social Network. SN) ,为 其 生成 一 个 满足 &- 
匿名 的 伪装 社交 网 络 (Masked Social Network, MSN). MSN 表示 为 三 元 组 MG(MV ,ME， 
MA), 其 中 ,MV 二 {ch selz s+ lm} SN 节点 形成 的 划分 ,其 中 包含 mn TRX, ET RK GL 


含 至 少 上 个 节点 , 且 cli 门 cl 二 如 (i 关门, VU cl; Vi ME 为 聚 类 间 边 的 集合 , (cli,cl)) € ME 
i=1 


GE HHK Jv, € cl; v, € cl; ,满足 (v,,v,)EE;MA 为 泛 化 后 的 节点 属性 信息 表 , 包 含 
泛 化 后 的 准 标识 符 信息 和 敏感 属性 信息 。 

在 MSN 的 基础 上 ,定义 更 进一步 的 伪装 社交 网 络 (Further Masked Social Network， 
FMSN) ,对 应 的 三 元 组 FMG(FMV,FME.FMA) 中 FMV 和 FME 保持 不 变 , 要 求 FMA 满 
足 同一 聚 类 的 敏感 属性 值 不 小 于 1。 显 然 ,相对 于 MSN,FMSN 能 提供 更 好 的 属性 匿名 
保护 。 

5j 5.3. 3 节 类 似 ,首先 利用 SaNGreeA 算法 9 根据 信息 损失 (包括 泛 化 属性 信息 损失 、 
聚 类 内 部 结构 信息 损失 、 聚 类 间 结 构 信 息 损失 ) 将 所 有 节点 划分 到 不 同 聚 类 中 ,每 个 聚 类 都 
包含 至 少 & 个 节点 ,得 到 MG(MV,ME,MA)。 然 后 进一步 优化 这 一 结果 。 具 体 算 法 步骤 
如 下 : 

(1) 更 新 FMV Jy MV 中 满足 LAE RES 

(2) 更 新 NFMV 为 MV fil FMV 的 差 集 。 

G) 当 NFMV 不 为 空 集 时 ,执行 以 下 步 又 : 

(3.1) 取 NFMYV 中 敏感 属性 最 多 的 聚 类 cla ,更 新 NFMV 为 NFMV 一 cla。 

(3.2) WÈ cla 敏感 值 种 类 小 于 1, 那 么 从 clu 中 选择 一 个 节点 vw 与 其 他 聚 类 中 的 一 个 
节点 v, 交换 ,使 得 交换 产生 的 信息 损失 最 少 , 且 聚 类 ela 的 敏感 值 种 类 变 大 。 

(3.3) 如 果 无 法 找到 满足 条 件 的 v;, 则 将 聚 类 cl 中 的 每 个 节点 分 配 到 其 他 聚 类 中 ,使 
得 信息 损失 最 少 ,从 而 删除 聚 类 cla 。 

(4) 根据 FMYV 生成 FME 和 FMA。 

WY PA GBs at EE Aj (Cluster Entropy) 的 概念 来 衡量 算法 提供 的 隐私 保护 能 力 。 

定义 S-17 BBW) ”给 定 聚 类 cl,SA 二 {51,s,,…,s,} 是 不 同 敏感 属性 值 集合 ,T= (n. 
ty ett) sti 为 对 应 属性 值 s; 在 聚 类 cl rp Su cC. REREN 

CLEC) =— > TITE eat 


i=1 








HEMET EER Ml] EH 
CLE: (cl) =— 5] Tire Tat 
ZEIGE IIS 
T" ti t i—i t= 1 1 
CLE, (e) —— 25 Jepe Tar — fay 8 tap ~ Tet Tail 
SEAS RENT BEL 


5d. 4. 1 is tp 
fap E Tap fal Ter] fat ee Tel] 





CLE: (cl)— CLE, (cl) 





k 大 数据 安全 与 隐私 保护 














parL’ osts G, — 1)log(t, — 1) ] 


根据 函数 增加 性 可 判断 CLE, (cl) — CLE, (cl) Z0. AIE 36 1 ZR. EIE AY SK, fle 
感 属性 值 的 混乱 程度 增加 ,敌手 推测 时 需要 更 多 信息 。 


5.4 ”位 置 轨迹 隐私 保护 


在 2017 年 颁布 的 中 华人 民 共和 国 国 家 标准 (信息 安全 技术 个 人 信息 去 标识 化 指南 》 
中 ,明确 将 地 理 位 置 与 姓名 、 身 份 证 号 等 信息 并 列 ,作为 常见 的 用 户 标 识 符 。 而 在 日 常 的 生 
活 中 ,该 信息 却 被 各 种 服务 提供 商 大 量 收集 。 

从 前 面 的 分 析 可 以 看 出 ,用 户 的 位 置 轨迹 中 也 可 能 隐 含 用 户 的 身份 信息 、 社 交 关 系 信 
息 ` 敏 感 属性 信息 等 。 但 用 户 的 位 置 轨迹 隐私 还 包含 独特 的 范畴 ,包括 用 户 的 真实 位 置信 
息 .敏感 地 理 位 置信 息 和 用 户 的 活动 规律 信息 ,对 应 于 用 户 的 3 种 地 理 位 置 轨迹 隐私 保护 需 
求 。 用 户 的 真实 位 置 隐 私 保护 通常 指使 用 用 户 轨迹 信息 时 不 暴露 用 户 的 真实 位 置 ,例如 在 
基于 位 置 服务 或 者 智能 交通 等 应 用 或 非 实 时 的 位 置 应 用 场景 中 ,用 户 不 希望 自己 被 唯一 准 
确 地 定位 。 用 户 的 敏感 地 理 位置 隐 私 保护 是 指 用 户 不 希望 公开 访问 历史 中 的 某 些 特定 地 理 
位 置 ,例如 医院 、 家 庭 住址 等 ,从 而 避免 自己 的 疾病 或 住址 泄露 。 用 户 的 活动 规律 来 源 于 用 
户 的 长 期 出 行 历史 ,反映 了 包括 用 户 的 出 行 时 间 、 交 通 工 具 、 停 留 地 点 和 目的 地 等 信息 的 用 
户 周期 性 和 随机 性 出 行 的 模式 。 如 果 敌 手掌 握 了 用 户 的 活动 规律 ,就 能 够 预测 用 户 当 前 出 
行 的 下 一 位 置 .目的 地 、 未 来 的 出 行 ,甚至 发 现 用 户 在 出 行路 线 上 可 能 访问 过 的 敏感 地 理 位 
置 。 因 此 ,除了 传统 的 身份 隐私 ` 社 交 关 系 隐私 、 敏 感 属性 隐私 ,在 探讨 用 户 位 置 轨迹 数据 挖 
掘 应 用 时 ,还 必须 兼顾 用 户 的 真实 位 置 隐 私 、 敏 感 地 理 位 置 隐私 和 活动 规律 隐私 这 3 种 隐私 
保护 需求 。 

本 节 首 先 针对 位 置 轨迹 数据 的 两 种 场景 : 实时 进行 的 位 置 轨迹 收集 的 隐私 保护 和 对 已 
经 收集 的 位 置 轨迹 进行 发 布 时 的 隐私 保护 ,分 别 介绍 相应 的 隐私 保护 方法 。 最 后 ,介绍 新 型 
的 基于 用 户 活 动 规律 挖掘 的 攻击 手段 。 基 于 用 户 的 活动 规律 ,可 进行 用 户 重 识别 和 位 置 预 
测 等 攻击 。 


5.4.1 面向 LBS 应 用 的 隐私 保护 


基于 位 置 的 服务 (Location Based Service,LBS) 是 指 服务 提供 商 根据 用 户 的 位 置信 息 
和 其 他 信息 为 用 户 提供 相应 的 服务 。 当 用 户 需 要 使 用 某 种 位 置 服务 时 ,通过 手机 等 设备 将 
位 置信 息 提交 到 服务 器 ,服务 器 经 过 一 定 的 查询 处 理 后 将 结果 返回 给 用 户 , 如 查询 “当前 位 
置 附近 的 共享 单车 光 某 景点 附近 的 餐厅 酒店 “从 A 位 置 到 B 位 置 的 路 线 ” 等 。 但 无 论 哪 
种 位 置 服务 ,都 离 不 开 用 户 位 置 这 个 重要 因素 。 

位 置 服务 的 质量 与 位 置信 息 的 准确 性 息息相关 ,用 户 往 往 会 把 精确 的 位 置信 息 发 送 到 
服务 器 端 , 这 无 疑 为 敌手 窃取 用 户 的 信息 提供 了 方便 。 无 论 是 在 传输 过 程 中 敌手 窃听 用 户 
的 数据 ,还 是 服务 提供 商 有 意 或 无 意 泄露 用 户 的 信息 ,都 会 给 用 户 隐私 带 来 巨大 的 威胁 。 

在 当前 各 类 LBS 隐私 保护 方案 中 ,两 类 典型 的 方法 是 Mix-zone 在 路 网 中 的 应 用 和 
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PIR 在 近邻 查询 中 的 应 用 。 


1. Mix-zone 在 路 网 中 的 应 用 

简单 来 说 ,Mix-zone 是 多 个 用 户 集中 改变 假名 的 特定 区 域 。Beresford 4AT FE 
提出 Mix-zone 方 法 ,其 基本 思想 是 : 指定 一 些 区 域 作为 Mix-zone, 多 个 用 户 进入 该 区 域 的 
信息 不 会 被 收集 ,离开 时 会 更 换 用 户 的 标识 符 , 从 而 敌手 无 法 将 每 个 用 户 的 轨迹 片段 一 一 对 
应 。Freudiger 等 人 [5 首次 将 Mix-zone 应 用 到 路 网 中 ,将 一 部 分 指定 的 十 字 路 口 设 定 为 
Mix-zone, 并 对 这 些 区 域 进行 加 密 以 免 敌手 进行 定点 的 窃听 ,其 示意 图 如 图 5-10 所 示 。 
Ying) Liu) Palanisamy^*597 4 A 4 SIE Fi I] Mix-zone 的 位 置 选择 .形状 等 方面 进行 
了 改进 。Mix-zone 的 具体 定义 如 下 。 

定义 5-18(Mix-zone) 匿名 集 在 Mix-zone 服从 大 匿 名 ,如 果 满 足 如 下 条 件 : 

CD 匿名 集中 至 少 包含 上 个 用 户 。 

(2) 匿名 集中 所 有 的 用 户 都 进入 之 后 才能 有 用 户 离开 。 

(3) 匿名 集中 所 有 的 用 户 在 Mix-zone 中 的 时 间 是 随机 的 。 

(4) 用 户 从 进入 点 进入 和 从 出 口 点 离开 的 概率 服从 均匀 分 布 。 

为 满足 上 述 条 件 ,Mix-zone 的 应 用 需要 满足 用 户 流 量 大 、 用 户 的 出 入 满足 周期 性 、 有 多 
个 出 入 口 等 条 件 。 路 网 满足 Mix-zone 的 上 述 条 件 : 某 些 路 口 用 户 流量 大 ;用 户 经 过 路 口 时 
需要 依据 周期 性 的 红绿灯 行动 ;用 户 到 达 路 口 的 时 间 各 不 相同 ;十 字 路 口 有 4 个 方向 ,人 们 
并 不 清楚 用 户 的 前 进 方向 。 

如 果 选 定 一 个 路 口 作为 Miz-zone, 有 多 个 用 户 在 某 一 时 间 段 内 (一 个 红绿灯 周期 ) 通 过 
该 路 口 , 且 在 该 时 间 段 内 他 人 无 法 获取 区 域内 的 任何 车 辆 信息 。 如 图 5-10 所 示 , 中 间 斜 线 
部 分 为 Mix-zone, 用 户 a,b 从 Enterl 进入 ,用户 cd 从 Enter3 进入 ,但 从 Exit3, Exit4 离开 
的 用 户 分 别 是 e、f、g、h。 如 果 不 清 楚 Mix-zone 内 的 信息 ,就 无 法 获取 ( 若 不 依靠 其 他 额外 信 
息 ,如 在 路 口 观 察 等 ) 离 开 的 ef、g\h 5 a,b cd 的 对 应 关系 。 


du 











图 5-10  Mix-zone 方法 示意 图 


然而 ,仔细 分 析 后 可 以 发 现 ,直接 在 路 口 定 义 矩 形 的 Mix-zone 依旧 存在 一 些 问 题 : 不 
同 转向 的 用 户 在 Mix-zone 中 停留 的 时 间 不 是 随机 的 ;路 口 虽 然 有 4 个 方向 ,但 大 多 数 用 户 
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都 有 很 大 概率 去 某 个 特定 方向 。 不 同 用 户 在 不 同 出 入 口 的 进入 、 离 开 的 概率 不 是 均匀 分 布 
的 。 为 此 ,需要 确保 以 下 两 个 条 件 : 在 一 个 时 间 段 内 假名 关联 到 各 个 用 户 的 概率 相似 ;不 同 
出 口 的 假名 关联 到 各 个 用 户 的 概率 相似 。 

HY PAGE AL XT (pairwise Entropy) 来 度量 两 个 用 户 概率 的 相似 性 : 两 个 用 户 的 概率 
越 相 近 , 炉 值 越 大 ;反之 则 越 小 。 假 设 任 意 两 个 用 户 {i,j} 进 入 一 个 Mix-zone 中 ,离开 时 的 
假名 分 别 为 {i ,j"}。 这 两 个 用 户 在 时 间 段 (1,t 十 1) 的 成 对 炉 可 以 表示 为 Hops (i,j,t) = 
一 (PG >i,t)logP(i >it) HPG 一 j,t)logP(i >j ,1)),P(i' 一 i,t) 是 指 在 时 间 段 (t,t 十 1) 
内 假名 7 关联 到 用 户 i 的 概率 。 这 两 个 用 户 关 于 地 点 的 成 对 炉 表示 为 HG.) = — (PG D 
logPG'—D-- PG'—jlogPG'—j)) ,其 中 PGi 一 7) 表 示 用 户 j 从 假名 i 所 在 位 置 离开 的 概 
率 。 通 过 成 对 箭 判断 用 户 相 似 性 后 ,可 以 得 到 如 下 改进 的 路 网 Mix-zone 定义 。 

定义 5-19( 路 网 Mix-zone) 匿名 集 在 路 网 Mix-zone 服从 大 匿 名 ,如 果 匿 名 集中 的 用 户 
i 满足 如 下 条 件 : 

OD 匿名 集中 至 少 有 & 个 用 户 。 

(2) 对 匿名 集中 的 任何 用 户 疡 ,其 成 对 科 不 小 于 阔 值 oH pair (i,j 4022. 

(3) SERE 4 SEP EE fa Pj ORE AS AP BR EE 8, H pair GB. 

虽然 Mix-zone 越 大 ,路 口内 时 间 的 影响 越 小 ,但 是 直接 扩大 Mix-zone 的 范围 会 严重 影 
响 路 网 的 可 用 性 。 通 过 对 Mix-zone 形状 进行 变换 ,使 其 成 为 不 规则 形状 ,确保 任何 转向 在 
Mix-zone 中 的 停留 时 间 相近 。 其 示意 图 如 图 5-11 所 示 。 








= 
图 5-11 改进 的 路 网 Mix-zone 


对 经 过 这 种 方法 处 理 后 的 轨迹 数据 进行 数据 分 析 , 依 旧 可 以 发 现 大 量 用 户 同时 出 现 的 
地 点 ,挖掘 聚会 行为 .预测 堵车 路 段 等 ,保留 了 对 于 用 户 群体 行为 的 数据 可 用 性 。 此 外 ,敌手 
无 法 通过 用 户 假名 追踪 一 个 用 户 的 全 部 踪迹 ,提高 了 用 户 数据 的 隐私 保护 程度 。 但 是 ,如 果 
对 车 辆 的 标识 ID 进行 更 改 , 即 使 得 到 用 户 授权 也 无 法 查 出 用 户 的 整个 行程 ,只 能 查找 出 最 
初 的 片段 。 即 处 理 后 的 数据 无 法 得 到 完整 的 用 户 轨迹 ,大 大 降低 了 数据 的 可 用 性 。 


2. PIR 在 近邻 查询 中 的 应 用 
隐私 信息 检索 (Private Information Retrieval,PIR) 是 数据 安全 领域 中 一 个 重要 的 密码 
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学 原 语 ,如 3. 1 节 所 述 , 它 是 指 用 户 在 不 向 远 端 服务 器 暴露 查询 意图 的 前 提 下 对 服务 器 的 数 
据 进行 查询 并 取得 指定 数据 。 在 一 些 特 定 的 LBS 场景 ,如 近邻 查询 (“ 当 前 位 置 附近 的 共享 
单车 “ 某 景 点 附近 的 餐厅 、 酒 店 ” 等 ) 中 ,可 以 通过 PIR 技术 来 保护 用 户 隐私 。 要 进行 精确 
的 近邻 查询 ,用 户 需要 向 服务 提供 商 发 送 自己 的 精确 位 置信 息 , 这 会 给 用 户 位 置 隐私 带 来 很 
大 的 风险 。PIR 技术 可 以 使 用 户 在 提供 一 个 模糊 的 地 理 位 置 后 ,依旧 可 以 得 到 精准 定位 对 
应 的 服务 。 

Ghinita G 等 人 中 结 合 3. 1. 1 节 提 到 的 基于 二 次 剩余 的 隐私 信息 检索 方法 ,根据 希 尔 
伯 特 曲线 和 泰 森 多 边 形 分 别提 出 了 一 种 模糊 近邻 检索 方法 和 一 种 精确 最 近邻 检索 方法 。 
Papadopoulos 等 人 5 采用 了 一 个 安全 硬件 辅助 的 PIR 协议 ,提出 了 两 个 查询 算法 : 基本 的 
BNC 算法 和 改进 的 AHC 算法 。 这 类 方法 的 核心 思路 都 是 : 服务 器 端 对 各 个 兴趣 点 (Point 
Of Interest,POD 构 建 空间 索引 。 用 户 根据 自己 的 模糊 位 置 确定 索引 查询 的 范围 ,向 服务 器 
端 发 送 请 求 ,获取 多 个 POI, 在 用 户 端 经 过 计算 得 到 最 终结 果 。 

一 般 来 说 ,构建 兴趣 点 数据 库 和 索引 结构 常用 的 方法 主要 有 希 尔 伯 特 曲 线 (Hilbert 
curve) 、 泰 森 多 边 形 (Voronoi diagram) 等 。 希 尔 伯 特 曲线 是 一 种 空间 填充 曲线 。 将 空间 划 
分 为 2 CAN 2x 2,4 4,8 8 等 ) 个 网 格 后 ,曲线 将 遍历 所 有 的 网 格 。 图 5-12(a) 展 示 了 一 到 
三 阶 的 希 尔 伯 特 曲线 的 一 种 构成 方式 。 曲 线 遍 历 顺 序 相 近 的 网 格 的 实际 位 置 也 相互 接近 。 
泰 森 多 边 形 是 一 种 基于 距离 的 平面 划分 方法 。 将 平面 分 为 包含 个 不 重合 种 子 点 的 区 域 ， 
使 得 每 个 区 域内 的 点 到 所 属 区 域 种 子 点 的 距离 都 最 近 。 图 5-12(b) 展 示 了 20 个 种 子 点 对 
应 的 泰 森 多 边 形 。 
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BET -0.4 -0.3-0.2-0.1 0 01 02 03 04 0.5 
(a) 希 尔 伯 特 曲线 (b) SRS 
图 5-12 一 到 三 阶 的 希 尔 伯 特 曲线 和 20 个 点 的 泰 森 多 边 形 


PIR 相关 方法 使 用 希 尔 伯 特 曲线 对 空间 进行 加 密 , 将 二 维 的 空间 映射 到 一 维 的 曲线 中 ， 
其 预 处 理 和 查询 流程 如 下 。 

预 处 理 流程 如 下 。 

(1) 使 用 希 尔 伯 特 曲 线 对 空间 进行 加 密 ,将 二 维 的 空间 映射 到 一 维 。 

(2) 根据 曲线 遍历 顺序 对 网 格 编号 (编号 相近 的 网 格 即 为 邻近 网 格 ) 。 

(3) 服务 器 根据 网 格 编号 的 相近 程度 对 POI 网 格 构建 索引 。 

查询 流程 如 下 : 


| 
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(1) 用 户 发 送 查 询 请 求 ( 无 自身 位 置信 息 , 只 表达 查询 ) 。 

(2) 服务 器 返回 希 尔 伯 特 曲线 的 构造 及 POI 索引 。 

G) 用 户 计 算 自己 所 处 网 格 的 编号 ,得 到 离 自己 位 置 最 近 的 POI 索引 ,发 出 请 求 。 

(4) 服务 器 返回 该 索引 目录 下 的 全 部 POI。 

(5) 用 户 在 返回 值 中 找 出 自己 需要 的 POIL, 

由 于 希 尔 伯 特 曲线 产生 的 加 密 顺序 并 不 能 完全 准确 地 代表 两 个 网 格 之 间 的 距离 相近 程 
度 , 只 是 一 个 近似 值 ,为 了 达到 更 准确 的 查询 结果 ,可 以 通过 泰 森 多 边 形 进行 精确 近邻 查询 ， 

预 处 理 流程 如 下 : 

CD 服务 器 计算 每 个 POI 的 泰 森 多 边 形 。 

(2) 构建 网 格 与 泰 森 多 边 形 和 至 加 (网 格 粒度 根据 POI 密度 决定 ) 。 

(3) 存储 网 格 信息 (每 个 网 格 的 信息 包括 和 它 重 又 的 泰 森 多 边 形 对 应 的 POI 信息 ) 。 

查询 流程 如 下 : 

COD 用 户 发 送 查询 请 求 (无 自身 位 置信 息 , 只 表达 查询 )。 

(2) 服务 器 返回 网 格 粒度 。 

(3) 用 户 根据 computational PIR 协议 发 送 包 含 自己 位 置信 息 的 多 个 网 格 信息 。 

(4) 服务 器 返回 包含 多 个 扰动 网 格 的 全 部 网 格 信息 。 

(5) 用 户 找到 自身 所 在 网 格 对 应 的 全 部 信息 ,计算 和 白 身 精确 位 置 与 网 格 中 存储 的 POI 
的 距离 。 

无 论 是 基于 希 尔 伯 特 曲 线 的 方法 还 是 基于 泰 森 多 边 形 的 方法 ,都 不 需要 可 信 第 三 方 ,而 
且 隐 私 保护 强度 较 高 。 但 是 这 种 方法 在 查询 过 程 中 需要 经 过 多 次 交互 .计算 ,存在 预 处 理 时 
间 较 长 ,查询 效率 较 低 的 不 足 。 近 年 来 随 着 密码 学 技术 的 发 展 ,新 的 PIR 方案 具有 更 实用 
的 性 能 表现 和 更 高 的 安全 性 ,需要 基于 新 的 PIR 协议 针对 某 种 空间 查询 方式 设计 隐私 保护 
方案 ,提供 高 效率 的 位 置 隐私 保护 功能 。 


5.4.2 面向 数据 发 布 的 隐私 保护 


位 置 轨迹 隐私 保护 技术 源 自由 数据 库 隐 私 保护 ,同样 是 以 人 -匿名 理论 为 基础 。 而 位 置 
与 轨迹 隐私 保护 的 特殊 之 处 在 于 ,位 置 轨迹 数据 同时 具有 准 标识 符 和 隐私 数据 双重 性 质 。 
这 种 特殊 性 带 来 了 一 系列 新 的 挑战 : 如 果 把 所 有 位 置 轨迹 数据 当 作 准 标识 符 进 行 处 理 , 数 
据 失 真 严重 ,会 极 大 地 影响 数据 的 可 用 性 ;而 一 条 轨迹 数据 中 可 能 包含 大 量 相互 关联 的 点 ， 
仅 对 部 分 数据 进行 处 理 将 难以 满足 &- 匿 名 隐私 保护 需求 。 

位 置 轨迹 数据 的 隐私 保护 主要 是 保护 轨迹 上 的 敏感 .频繁 访问 位 置 不 泄露 以 及 保护 个 
体 与 轨迹 之 间 的 关联 关系 不 泄露 。 对 应 的 隐私 保护 思路 主要 有 两 种 : 对 轨迹 中 敏感 地 点 的 
保护 和 对 轨迹 与 用 户 关系 的 保护 。 


1. 针对 敏感 位 置 的 保护 技术 

在 位 置 轨迹 数据 中 ,用 户 并 不 关心 自己 经 过 某 些 非 敏感 位 置 的 信息 是 否 被 泄露 ,只 关心 
对 他 来 说 属于 敏感 位 置 的 那 部 分 位 置信 息 是 否 被 泄露 。 因 此 ,部 分 学 者 提出 只 对 用 户 的 敏 
感 地 点 信息 进行 保护 ,以 增加 数据 的 可 用 性 。Liu 5$ AP? 预先 划分 一 定 的 地 理 区 域 , 保 证 每 
AS PR SAT k 个 敏感 位 置 , 如 果 用 户 的 轨迹 在 某 个 敏感 位 置 停留 ,就 不 发 布 用户 在 该 敏感 位 置 
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所 属 区 域 中 的 全 部 信息 。Huo SE AC? 的 方法 是 等 用 户 在 某 个 敏感 位 置 进 行 停留 后 根据 实 
际 情况 生成 泛 化 区 域 ,使 其 至 少 包含 个 敏感 位 置 ,并 用 该 泛 化 区 域 蔡 代 轨迹 中 所 有 属于 该 
域 范围 的 点 。Cicek 等 人 中 提出 了 pp 机 密 性 (p-confidential) 方 法 来 生成 高 匿名 程度 的 泛 
区 域 ,使 泛 化 后 的 轨迹 数据 集 满足 p- 机 密 性 。 

为 了 将 初始 轨迹 数据 与 实际 地 图 紧密 结合 ,首先 要 对 初始 轨迹 数据 进行 一 定 的 预 处 理 。 
以 典型 的 GPS 数据 集 Geolife 数据 为 例 : 用 户 设 备 每 隔 5s 就 会 提交 一 次 用 户 具 体 的 位 置信 
息 。 多 个 用 户 长 时 间 的 GPS 信息 数据 不 但 会 占用 大 量 存储 空间 ,处 理 起 来 也 会 非常 麻烦 。 
提取 停留 点 是 一 种 常见 的 轨迹 数据 处 理 方法 ,可 以 找 出 用 户 在 哪些 地 点 停留 过 ,在 不 损害 数 
据 可 用 性 的 情况 下 使 数据 大 为 简化 。 

定义 5-20( 停 留 点 ) ”停留 点 (stops/stay point) 表 示 用 户 在 某 个 地 点 停留 超过 了 一 定 的 
时 间 。 停 留 点 的 判断 通常 需要 两 个 净值 (时 间 阔 值 与 空间 阔 值 ) ,时 间 阔 值 用 来 限制 用 户 的 
停留 时 间 ,空间 阔 值 用 来 限制 用 户 的 地 理 范 围 。 根 据 原 始 数据 与 场景 的 不 同 ( 如 用 户 轨 迹 是 
步行 轨迹 还 是 车 辆 轨迹 ) ,这 两 个 国 值 的 取 值 也 是 变化 的 。 但 由 于 GPS 轨迹 信息 定位 信息 
精度 太 高 ,不 同 轨迹 在 同一 个 地 点 停留 后 提取 的 停留 点 经 纬度 也 各 不 相同 。 

定义 5-21( 地 点 ) 地 点 (place) 指 具有 一 个 实际 意义 的 地 理 位 置 范围 ,如 家 、 工 作 地 点 、 
某 超市 等 。 由 于 初始 GPS 数据 提取 的 停留 点 经 纬度 精度 不 同 ,一 个 地 点 的 地 理 范围 可 能 包 
含 多 个 停留 点 ,在 该 地 点 的 范围 内 出 现 停留 点 就 表示 用 户 在 该 地 点 停留 过 。 

定义 5-22 (敏感 位 置 ) 用户 不 希望 自己 在 某 个 地 点 停留 的 信息 被 他 人 知道 , 则 该 地 
点 属于 敏感 位 置 (sensitive location) 。 

EX 5-23 〈 非 敏感 位 置 ) ”用户 不 关心 自己 在 某 个 地 点 停留 的 信息 是 否 被 他 人 知道 ， 
则 该 地 点 属于 非 敏 感 位 置 (insensitive location) . 

定义 5-24( 区 域 ) 区 域 (zone) 指 包含 多 个 地 点 的 地 理 范 围 , 用 来 泛 化 地 点 ,使 敌手 无 法 
区 分 用 户 在 哪个 地 点 停留 。 

如 图 5-13 Br ,针对 敏感 位 置 的 隐私 保护 数据 发 布 主要 流程 如 下 : 

(1) 提取 停留 点 。 

(2) 将 停留 点 与 实际 地 图 的 敏感 地 点 , 非 敏 感 地 点 对 应 。 

(3) 构建 泛 化 区 域 ( 或 泛 化 群 组 ) 使 其 满足 匿名 条 件 。 

(4) 根据 泛 化 区 域 对 轨迹 数据 进行 匿名 。 

(5) 发 布 匿名 后 的 轨迹 数据 。 
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图 5-13 敏感 位 置 隐私 保护 数据 发 布 流程 图 


总 而 言 之 ,针对 敏感 位 置 的 隐私 保护 方法 的 思路 都 是 将 要 匿名 的 轨迹 数据 集 与 实际 的 
地 图 相互 结合 ,根据 实际 情况 将 位 置 划分 为 敏感 位 置 和 非 敏感 位 置 ; 通 过 一 定 的 方法 将 敏感 
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位 置 所 处 的 区 域 进行 泛 化 ,确保 该 区 域 满足 隐私 条 件 。 其 中 流程 (3) 构 建 泛 化 区 域 (或 泛 化 
群 组 ) 使 其 满足 匿名 条 件 ” 是 本 类 方法 的 核心 步骤 ,是 同类 型 方法 的 主要 区 别 之 处 。 不 同方 
法 之 中 对 于 泛 化 区 域 ( 群 组 ) 的 构建 方案 和 匿名 条 件 都 各 不 相同 ,但 可 以 根据 实际 情况 选择 
合适 的 构建 方案 。 例 如 ,简单 地 选择 邻近 的 个 敏感 地 点 作为 一 个 敏感 区 域 ,在 敏感 地 点 分 
布 比较 稀疏 时 会 产生 较 大 的 泛 化 区 域 , 严 重 影响 用 户 的 轨迹 可 用 性 ,但 适合 敏感 地 点 分 布 相 
对 密集 的 区 域 ;p- 机 密 性 方法 要 求 有 多 条 轨迹 经 过 一 个 泛 化 区 域 ,但 对 敏感 地 点 个 数 要 求 较 
低 , 只 需要 一 个 敏感 地 点 和 邻近 的 地 点 就 可 以 构建 泛 化 区 域 ,对 轨迹 的 可 用 性 影响 小 ,而 对 
轨迹 密度 有 一 定 的 要 求 。 

然而 这 种 方法 对 于 轨迹 隐私 的 保护 并 不 能 达到 预期 效果 。 我 们 知道 ,一 条 轨迹 中 的 各 
个 点 是 相互 联系 的 。 如 果 泛 化 区 域 较 小 ,敌手 可 以 通过 轨迹 中 的 其 他 点 推算 用 户 的 移动 速 
JE ,根据 两 点 之 间 的 发 布 时 间 找 出 用 户 没有 发 布 的 点 在 轨迹 中 所 处 的 位 置 ,然后 根据 前 后 的 
点 和 移动 速度 推测 出 用 户 可 能 的 敏感 地 点 范围 。 反 之 ,如 果 泛 化 区 域 较 大 ,一 个 用 户 的 大 部 
分 轨迹 都 不 能 真实 发 布 ,就 会 严重 影响 数据 的 可 用 性 。 此 外 ,这 种 方法 有 着 不 合理 的 统一 隐 
私 保护 需求 , 即 认 为 所 有 用 户 的 敏感 地 点 都 是 相同 的 。 而 在 实际 生活 中 ,不 同 用 户 不 愿意 发 
布 的 敏感 地 点 各 不 相同 ,也 就 是 说 不 存在 一 个 统一 的 隐私 保护 需求 。 因 此 预先 设 定 的 敏感 
位 置 可 能 并 不 是 用 户 需要 保护 的 敏感 位 置 , 没 有 照顾 到 用 户 的 个 性 化 需求 。 


2. (kk,6)- 匿 名 及 相关 模型 

(k,6)- 匿 名 模型 是 -匿名 模型 的 扩展 。 该 模型 把 条 轨迹 聚 类 到 一 个 匿名 集中 ,以 平 
均值 代替 原来 的 条 轨迹 ,同时 限制 轨迹 间 的 距离 6 以 保证 & 条 轨迹 有 一 定 的 相似 度 , 从 而 
降低 信息 失真 程度 。Abul 等 人 中 对 相关 的 定义 进行 了 界定 。 

在 日 常生 活 中 ,位 置 轨迹 可 以 分 为 狭义 和 广义 两 种 。 狭 义 的 轨迹 是 指 GPS 定位 等 不 断 
收集 的 用 户 位 置信 息 , 它 通常 几 秒 提交 一 次 。 广 义 的 轨迹 除了 GPS 信息 外 ,还 包括 用 户 在 
一 段 时 间 内 使 用 基于 位 置 的 服务 .社交 网 络 等 应 用 时 主动 提交 的 位 置信 息 。 

定义 S-25( 轨 迹 ) 轨迹 是 指 用 户 经 过 的 一 系列 三 维 时 空 点 的 集合 : Gn it Gs 
ya ste dott Gn syst } EP tı Sta <<, 

在 时 间 段 [t; ,ai], 通 常 假设 用 户 以 稳定 速度 通过 点 (ziyy) 到 点 (ziyyri) 间 的 直线 
段 。 给 定时 间 段 [La ,tj] 内 的 轨迹 zt,《r,6) 定 义 了 不 确定 轨迹 的 范围 。 对 于 z+ 中 的 任意 点 (zx， 
yet) ,其 不 确定 范围 为 以 该 点 为 中 心 ,以 9 为 半径 的 水 平 圆 盘 。Vol(r,6) 为 时 间 段 [La st JA 
所 有 圆 盘 的 集合 。 

这 里 介绍 两 条 轨迹 Lco 在 0 内 共 位 置 (co-localized) 的 概念 。 当 且 仅 当 对 mm Les 内 的 任 
意 相 同时 刻 的 位 置 点 (ziyy D Gro yo yi), 存 在 Dist((zyy),(Czvy)) 二 9, 并 且 Dist 


(Gn si) (Zary2)) 二 VTi 一 Tz) 十 (1 一 yz) 时 , 称 两 条 轨迹 共 位 置 ,并 记 为 Colocs Gn » 
0). 

定义 5-26((k,6)- 匿 名 ) 轨迹 集合 S 满足 (&,0)- 匿 名 , 当 且 仅 当 |S| >k AVG. ES 
满足 Colocs (t; stj) ,如 图 5-14 所 示 。 

首先 将 轨迹 数据 进行 了 一 定 的 时 间 泛 化 处 理 , 使 得 在 相同 时 间 段 内 的 轨迹 具有 足够 的 
规模 ,从 而 可 以 初步 形成 规模 适宜 的 等 价 类 。 然 后 对 同一 等 价 类 的 轨迹 依据 距离 进行 贪 禁 
聚 类 ,直至 形成 包含 上 条 轨迹 的 集合 。 如 果 剩 余 轨迹 无 法 形成 聚 类 , 则 将 其 分 配 到 其 他 符合 
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图 5-14 (k,6)- 匿 名 示意 图 


距离 限制 的 已 有 聚 类 中 ,或 者 放松 距离 限制 。 直 到 所 有 轨迹 都 进入 聚 类 ,或 者 剩余 的 无 法 聚 
类 的 轨迹 数目 在 可 接受 范围 内 。 该 算法 的 流程 如 下 : 

CD 时 间 泛 化 。 轨 迹 起 始 时 间 和 结束 时 间 泛 化 为 以 小 时 或 分 (或 其 他 时 间 间 隔 ) 为 
单位 。 

(2) 将 同一 时 间 段 内 的 轨迹 归 入 同一 等 价 类 。 

(3) 在 同一 等 价 类 内 部 ,计算 所 有 轨迹 的 平均 位 置 ,作为 等 价 类 的 中 心 轨迹 。 

(4) 选择 离 上 一 个 中 心 轨迹 最 远 的 轨迹 为 新 的 中 心 轨迹 。 

(5) 选择 中 心 轨迹 距离 最 近 的 & 条 轨迹 为 新 的 聚 类 。 

(6) 重复 第 (4) 步 和 第 (5) 步 ,直到 无 法 形成 聚 类 。 

(7) 如 果 不 在 聚 类 内 的 轨迹 条 数 小 于 国 值 ,返回 所 有 聚 类 。 

(8) 如 果 不 在 聚 类 内 的 轨迹 条 数 大 于 或 等 于 靖 值 , 则 依次 向 现 有 聚 类 添加 其 距离 范围 
内 的 轨迹 ,直到 无 法 添加 或 者 剩余 轨迹 条 数 小 于 国 值 , 则 返回 所 有 聚 类 。 

(9) 如 果 不 在 聚 类 内 的 轨迹 条 数 大 于 或 等 于 靖 值 , 增 大 距离 限制 闽 值 ,重复 第 (8) 步 。 
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3. LKC- 隐 私 模型 

如 前 所 述 ,大 匿名 模型 能 够 避免 攻击 者 根据 准 标识 符 唯一 地 识别 出 攻击 目标 ,但 如 果 一 
个 匿名 集 记 录 的 敏感 数据 接近 一 致 或 集中 于 某 个 属性 ,攻击 者 也 可 以 通过 同 质 攻击 唯一 地 
或 以 极 大 概率 确定 数据 持 有 者 的 属性 。 在 现实 世界 中 ,轨迹 数据 通常 并 不 是 单独 出 现 的 ,如 
医院 会 使 用 RFID 定位 病人 ,轨迹 数据 会 与 疾病 等 敏感 信息 一 同 出 现 。 已 有 基于 大 匿名 模 
型 的 方法 并 不 能 抵抗 同 质 攻击 ,一 个 简单 的 实例 如 表 5-4 所 示 。 


























表 5-4 轨迹 示例 
用 户 编号 初始 轨迹 诊断 数据 其 他 数据 
1 al 一 d42 一 b3 一 e4 一 f6 一 e8 HIV 
2 d2 一 c5 一 f6 一 c7 一 e9 Fever 
3 b3-7c7-7e8 Hepatitis 
4 b3 一 e4 一 f6 一 e8 Flu 
5 al 一 d42 一 c5 一 f6 一 c7 HIV 
6 c5—16-7e8 Hepatitis 
[1 16—c7—e8 Fever 
8 al 一 42 一 和 6 一 c7 一 e9 Flu 











对 表 5-4 中 用 户 1 和 5 的 初始 轨迹 进行 匿名 处 理 , 得 到 al 习 d2 一 {6, 虽 然 这 两 者 的 轨迹 
不 可 进一步 区 分 ,但 是 他 们 的 诊断 数据 都 是 HIV ,并 没有 保护 这 两 个 用 户 的 诊断 隐私 。 

为 了 在 同 质 攻 击 下 确保 轨迹 数据 集 对 应 的 属性 隐私 ,Mohammed 等 人 中 提出 了 LKC- 
隐私 来 度量 轨迹 数据 的 隐私 程度 ,满足 LKC- 隐 私 就 可 以 抵御 一 定 程 度 的 同 质 攻击 。 

定义 5-27(LKC-privacy) L 是 敌手 掌握 的 轨迹 长 度 上 限 ,T 是 所 有 用 户 的 轨迹 数据 
集 ,S 是 轨迹 数据 集 T 中 的 敏感 属性 值 ,T 满足 LKC- 隐 私 当 且 仅 当 T 中 任意 子 序列 p 在 
p <LI i UT ATE 

(1) 1T(p) | 三 K,T(p) 是 轨迹 中 包含 p 的 用 户 。 

(2) ConfG| TC9)) < C,0< C«I1.s€ S,Conf(s|T(p))=|T(p U s)1/IT(p)|1,C 是 
匿名 集 的 置信 度 阔 值 , 可 以 根据 需求 灵活 地 调整 匿名 的 程度 。 

当 区 一 2, 开 一 2,C 一 50%% 时 ,敌手 掌握 的 每 个 用 户 的 轨迹 长 度 最 多 为 2, 实 现 2- 匿 名 , 且 
每 个 匿名 集中 任何 一 个 敏感 属性 所 占 比 例 不 超过 5096. e 5-4 中 的 轨迹 数据 经 过 处 理 后 
如 表 5-5 所 示 。 





表 5-5 及 匿名 轨迹 无 效 示例 














用 户 编号 工 一 2,K 一 2,C 一 50% 轨 迹 诊断 数据 其 他 数据 
1 b3 一 e4 一 f6 一 e8 HIV 
2 d2-—c5—16—c7—e9 Fever 
3 c7—e8 Hepatitis 
4 b3-e4—16—e8 Flu 
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续 表 
用 户 编 号 L=2,K=2,C=50% 8 yl 诊断 数据 其 他 数据 
5 d2—c5—16—c7 HIV 
6 c5—16—e8 Hepatitis 
7 16—c7-7e8 Fever 
8 d2 一 f6 一 c7 一 e9 Flu ES 











为 了 对 轨迹 数据 集 进行 处 理 , 使 其 满足 LKC- 4. Mohammed 和 Chen 等 人 [5 通过 抑 
制 (suppression) 等 方法 删除 违反 序列 来 保护 发 布 的 位 置 轨迹 隐私 。 他 们 首先 定义 了 违反 
序列 (Violating Sequence,VS) 的 概念 。 对 于 轨迹 数据 集 工 的 任意 一 个 子 序列 上 ,如 果 |:i| 去 
工 , 且 户 不 满足 LKC- 隐 私 的 条 件 , 则 称 序列 t 为 一 个 违反 序列 。 其 中 ,如 果 + 是 违反 序列 且 
t 的 任意 子 序列 都 不 是 违反 序列 , 则 + 是 一 个 最 小 违反 序列 (Minimum Violating Sequence, 
MVS). fa)M,L=2,K=2,C=50% ,al 一 d2 是 违反 序列 但 不 是 最 小 违反 序列 ,al 是 最 小 违 
反 序 列 。 由 此 产生 如 下 两 个 定理 。 

定理 5-1 一 个 轨迹 数据 集 工 满 足 LKC- 隐 私 , 当 且 仅 当 了 不 包含 最 小 违反 序列 。 

定理 5-2 全 局 抑制 不 会 产生 新 的 最 小 违反 序列 。 

由 LKC- 隐 私 定义 及 定理 5-1 和 定理 5-2 可 知 ,为 了 得 到 满足 LKC- 隐 私 的 轨迹 数据 集 ， 
最 简单 的 方法 就 是 删除 轨迹 数据 集中 的 全 部 违反 序列 ,因为 全 局 抑制 (全 部 删除 ) 不 会 产生 
新 的 违反 序列 。 但 这 样 会 删除 大 量 的 轨迹 数据 ,导致 数据 可 用 性 大 为 降低 。 为 了 解决 这 个 
问题 ,可 以 采用 局 部 抑制 的 方法 。 但 局 部 抑制 有 可 能 导致 新 的 最 小 违反 序列 产生 ,例如 删除 
用 户 3 轨迹 中 的 c7 ,会 导致 用 户 7 轨迹 中 的 c7 e8 成 为 新 的 违反 序列 ,但 删除 用 户 3 轨迹 
中 的 b3 不 会 有 新 的 最 小 违反 序列 产生 。 不 会 产生 新 的 最 小 违反 序列 的 局 部 抑制 称 为 有 效 
局 部 抑制 。 由 上 可 知 ,相对 于 全 局 抑制 ,有 效 局 部 抑制 可 以 在 保证 满足 LKC- 隐 私 的 情况 下 
尽 可 能 地 保留 数据 的 可 用 性 。 有 效 局 部 抑制 的 判断 流程 如 下 : 

CD m 是 一 个 MVS,p 是 m 中 要 抑制 的 点 ,P 是 抑制 点 p 后 可 能 影响 的 点 。 

(OD V 是 单 点 违反 序列 和 包含 P 中 点 的 违反 序列 集合 。 

(3) 删除 P 中 属于 V 的 点 ( 除 点 p 外 )。 

(4) P 中 剩余 的 点 生成 序列 ,重新 进行 判断 。 

为 了 高 效 地 寻找 满足 有 效 局 部 抑制 的 子 序列 ,可 以 优先 从 频繁 序列 (Frequent 
Sequence,FS) 中 寻找 。 对 于 给 定 频繁 阔 值 K; 和 轨迹 数据 集 丁 的 任意 子 序列 z, 如 果 |T(2) | > 
Ki, 则 zt 是 一 个 频繁 序列 。 其 中 ,如 果 上 是 频繁 序列 , 且 工 中 没有 包含 上 的 频繁 序列 , 则 + 是 
最 大 频繁 序列 (Maximal Frequent Sequence, MFS), {HEJH MFS 构建 MFS 树 后 可 以 通过 点 
2 的 抑制 优先 级 得 分 Source(p) 来 决定 抑制 的 顺序 ,其 中 Source (p) = PrivGain ( p)/ 
(Utilityloss(p) 十 1) ,PrivGain(p) 是 抑制 点 p 可 以 消除 的 MVS 数目 ,Utilityloss(p) 是 抑制 
A p 带 来 的 有 用 性 损失 。 

整体 数据 满足 LKC- 隐 私 的 算法 的 流程 如 下 : 

CD 找 出 违反 LKC- 隐 私 的 MVS 集合。 

(2) 找 出 MFS 集 ,构建 MFS 树 。 

(3) 对 MVS 的 点 进行 有 效 局 部 抑制 判断 。 
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(4) 构建 得 分 表 ( 每 个 点 都 有 局 部 得 分 和 全 局 得 分 ) 。 

(5) 每 次 选 得 分 最 高 的 点 po 

(6) 如 果 是 局 部 抑制 ,抑制 获得 本 次 p 的 实例 ,更 新 MFS。 

(7) 如 果 是 全 局 抑制 ,抑制 全 部 实例 ,删除 包含 p 的 MFS, 

(8) 更 新 得 分 表 。 

(9) 更 新 MVS fk, 

此 外 ,Ghasemzadeh 等 人 中 对 LKC- 隐 私 模型 中 C— 1 的 情况 进行 了 研究 ,使 用 全 局 抑 
制 的 方法 来 进行 轨迹 隐私 保护 。Al-Hussaeni “ AU? fg LKC- 隐 私 模型 中 通过 滑动 态 窗 口 
实现 对 轨迹 的 平滑 的 局 部 抑制 来 保护 轨迹 的 隐私 。 

虽然 对 轨迹 位 置 隐私 的 -匿名 研究 相当 广泛 ,但 正如 5. 2.1 节 所 讨论 的 ,&- 匿 名 模型 存 
在 天 然 的 缺陷 。 位 置 轨迹 隐私 保护 的 研究 也 证 明了 这 一 点 。 研 究 发 现 , 如 果 攻 击 者 掌握 足 
够 多 的 用 户 位 置 数据 ,也 能 够 通过 足够 多 的 隐形 区 域 识 别 出 匿 名 用 户 。Zang 等 人 [中 把 
GSM 网 络 中 用 户 访 问 频率 较 高 的 基站 位 置 作 为 准 标识 符 ,通过 用 户 电话 呼叫 记录 数据 进行 
了 实验 ,结果 表明 ,即使 使 用 同一 基站 的 用 户 数目 远 远 超过 一 般 的 个 用 户 ,35% 的 用 户 可 
以 通过 基站 准 标 识 符 唯一 地 识别 出 来 。 

4. 基于 伪 随机 加 密 的 可 北 位 置 泛 化 

为 了 保护 用 户 隐 私 ,在 数据 发 布 时 会 进行 一 定 的 匿名 处 理 , 其 中 对 位 置 进 行 泛 化 使 其 与 
其 他 用 户 不 可 区 分 是 一 种 常用 的 手段 。 已 有 的 研究 绝 大 多 数 只 考虑 了 单 层 单 向 的 隐私 保护 
数据 发 布 方法 。 单 层 是 指 所 有 的 数据 具有 相同 的 匿名 程度 ,不 同 权限 的 用 户 可 以 访问 的 匿 
名 数据 是 相同 的 。 单 向 是 指 特权 用 户 无 法 对 匿名 数据 进行 去 匿名 以 获取 原始 数据 。 

而 在 实际 中 ,数据 拥有 者 在 对 数据 进行 一 定 的 隐私 保护 处 理 后 将 数据 公开 发 布 ,网 络 上 
的 各 种 用 户 ( 无 论 他 是 否 怀 有 恶意 ,将 如 何 使 用 数据 ) 都 可 以 获取 该 数据 。 数 据 隐私 程度 不 
够 ,攻击 者 将 通过 这 些 数据 侵犯 用 户 的 隐私 ;数据 隐私 保护 性 太 强 , 会 破坏 数据 的 可 用 性 , 影 
响 善 意 的 数据 使 用 者 的 使 用 效果 。 如 果 数 据 拥有 者 面 对 不 同 的 用 户 对 数据 进行 不 同 级 别 的 
处 理 , 将 给 数据 拥有 者 带 来 大 量 的 工作 量 , 可 能 导致 其 不 愿意 公开 数据 。 

如 果 使 用 一 种 加 密 的 方法 对 数据 进行 多 层 加 密 发 布 ,不 同 权 限 的 使 用 者 可 以 访问 不 同 
隐私 保护 强度 的 数据 , 低 权限 用 户 访问 高 匿名 程度 的 数据 .高 权限 用 户 访问 低 匿 名 程度 的 数 
据 。 只 需要 向 白 名 单 用 户 提供 对 应 的 密 钥 ,该 用 户 就 可 以 自行 获得 高 可 用 性 的 数据 ,而 一 般 
用 户 和 敌手 就 只 能 获得 高 匿名 程度 的 数据 ,从 而 无 法 获取 用 户 隐私 。Li 和 Palanisamy 等 
人 5 提出 的 ReverseCloak 方法 就 是 上 述 思想 的 体现 。 他 们 考虑 了 路 网 中 位 置 的 多 层 可 
逆 发 布 。 通 过 密 钥 对 位 置 进行 有 规律 的 泛 化 , 密 钥 持 有 者 通过 密 钥 可 以 得 到 对 应 层次 的 
信息 。 

为 了 使 真实 位 置 的 泛 化 区 域 (cloak) 能 够 可 逆 泛 化 的 同时 具有 随机 的 泛 化 扩张 规律 ,使 
用 密 钥 作为 种 子 生成 伪 随 机 序列 ,并 根据 伪 随 机 序列 对 泛 化 区 域 范围 进行 扩大 。 每 次 扩大 
泛 化 区 域 都 是 将 泛 化 区 域 的 邻近 路 段 (segment) 作 为 候选 集 (candidate) ,从 中 选择 一 个 路 
段 , 第 i 次 扩张 就 将 伪 随 机 序列 的 第 i 个 数 作为 挑选 标准 (pick 值 )。 当 前 有 两 种 选择 候选 
集 扩张 泛 化 区 域 的 方法 : 可 逆 全 局 扩张 和 基于 预 分 配 的 可 逆 局 部 扩张 。 

可 道 全 局 扩张 每 次 都 根据 最 新 的 泛 化 区 域 构 建 全 局 最 优 的 候选 集 , 具 体 算法 流程 如 下 : 

(1) 泛 化 区 域 每 次 扩张 时 从 候选 集中 选择 一 个 路 段 。 
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(2) candidate 是 根据 当前 泛 化 区 域 的 邻近 路 段 确定 的 。 

(3) 以 泛 化 区 域 包含 的 路 段 作为 行 ,以 candidate 包含 的 路 段 作为 列 ,构建 转移 表 。 

G. D 表 中 的 值 为 (i 十 j)mod | candidate| 。 

(3.2) i,j 是 指 表格 的 横 纵 坐标 ,|candidate| 是 指 候选 集 的 列 数 。 

(4) 根据 上 一 个 加 入 的 路 段 与 对 应 的 转移 表 数 据 选 择 与 当前 pick 值 对 应 的 路 段 。 

(4.1) 以 key 为 种 子 生 成 一 个 伪 随 机 序列 。 

(4.2) 伪 随 机 序列 第 个 值 对 应 第 n 轮 扩展 的 pick 值 。 

CO 多 次 重复 上 述 步 骤 直 到 满足 隐私 条 件 。 

不 同 于 全 局 扩张 ,局 部 扩张 的 候选 集 是 在 最 开始 就 根据 每 个 路 段 的 可 能 扩张 候选 集 生 
成 加 密 表 和 对 应 的 解密 表 ( 用 于 可 道 解密 ) ,基于 预 分 配 的 可 逆 局 部 扩张 分 为 两 步 : 

(1) 预 分 配 (prerassignment) 。 

(2) E fb. 

(2. D 根据 pick 值 与 上 一 个 加 入 的 路 段 从 加 密 表 中 挑选 下 一 个 路 段 。 

(2.2) 多 次 重复 加 入 新 的 路 段 , 直 到 满足 隐私 条 件 。 

无 论 是 哪 一 种 扩张 方法 ,只 要 掌握 了 对 应 的 加 密 密 钥 ,就 可 以 将 最 高 级 别 的 隐私 泛 化 区 
域 缩小 到 与 权限 对 应 的 泛 化 程度 。 

如 图 5-15 所 示 ,用 户 的 真实 位 置 为 五 角 星 外 ,对 
应 的 最 底层 的 数据 为 L0: s8; 第 二 个 加 密 层 对 应 的 数 
据 为 Ll: LO+s4,sl2; 第 三 个 加 密 层 对 应 的 数据 为 
L2: Ll 十 s6,sll,sl3; 第 四 个 加 密 层 对 应 的 数据 为 
L3: L2 十 s2,s7,s9。 如 果 用 户 的 权限 属于 L2, 他 的 
密 钥 就 可 以 把 最 终 的 泛 化 加 密 结果 解密 成 为 L2 十 
s2,s7,s9, 从 而 把 泛 化 的 区 域 从 L3 缩小 到 L2。 

当前 的 可 逆 位 置 隐私 研究 刚刚 展开 , 仅 限 于 针对 图 5-15 扩张 算法 示例 
某 个 位 置 的 泛 化 。 下 一 步 的 研究 可 以 将 这 种 方法 与 
敏感 位 置 保护 结合 ,或 者 扩展 到 对 轨迹 整体 的 隐私 保护 。 


5.4.3 基于 用 户 活动 规律 的 攻击 


在 5.4.1 节 和 5.4.2 节 中 介绍 了 一 些 基 于 位 置 轨迹 基本 特征 的 攻击 和 保护 方法 。 随 着 
数据 量 的 积累 和 数据 挖掘 分 析 的 深入 ,基于 用 户 活动 规律 分 析 的 新 型 攻击 也 日 益 活跃 。 在 
这 些 攻 击 中 ,攻击 者 首先 将 目标 用 户 的 活动 规律 以 具体 模型 量化 描述 ,进而 以 此 为 基础 衡量 
不 同 用 户 的 相似 程度 以 重新 识别 同一 用 户 的 不 同 id, 根 据 模型 恢复 重建 用 户 的 轨迹 以 推理 
用 户 隐 藏 的 敏感 位 置 ,预测 用 户 访问 某 地 理 位 置 的 可 能 性 ,甚至 精确 预测 其 行程 的 起 访 和 
路 径 。 

用 户 去 匿名 攻击 依赖 于 模型 对 于 特定 攻击 目标 的 特征 刻画 。 更 具体 地 说 ,去 匿名 攻击 
以 建立 的 用 户 位 置 轨 迹 模型 作为 用 户 轮廓 ,只 有 当 攻 击 目标 的 用 户 轮廓 与 其 他 用 户 具 有 足 
够 大 的 差异 ,才能 够 实现 用 户 重新 识别 、 去 匿名 的 目的 。 因 此 ,去 匿名 攻击 建 模 仅 依赖 于 用 
户 自身 轨迹 数据 ,关注 的 重点 在 于 建立 合理 的 用 户 模型 和 精确 度量 用 户 间 相似 程度 。 去 匿 
名 攻击 最 终 导 致 用 户 身份 泄露 ,由 此 也 将 带 来 一 系列 的 属性 泄露 和 位 置信 息 泄露 。 
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用 户 敏感 位 置 推理 攻击 试图 发 现 用 户 公开 的 轨迹 片段 中 是 否 存在 被 隐藏 的 敏感 位 置 。 
考虑 到 这 一 敏感 位 置 是 否 曾 经 被 攻击 目标 用 户 公开 过 ,需要 从 用 户 的 访问 历史 或 者 与 其 相 
似 的 人 和 群 的 访问 历史 挖掘 用 户 在 一 个 轨迹 片段 中 访问 此 敏感 位 置 的 可 能 性 。 但 在 大 多 数 情 
况 下 ,研究 者 单纯 假设 敏感 位 置 已 经 被 公开 过 或 者 从 未 被 公开 过 ,这 种 假设 将 敏感 位 置 推理 
问题 一 分 为 二 ,简化 了 问题 的 场景 。 相 关 研究 的 重点 分 别 在 于 精确 的 用 户 地 点 转移 模型 和 
相似 人 群 的 影响 力 传递 模型 ,并 最 终 实现 对 用 户 具 体位 置 隐私 的 攻击 。 

位 置 预测 攻击 则 是 更 加 复杂 的 问题 ,需要 额外 判断 被 预测 的 位 置 是 否 服从 用 户 自身 活 
动 规律 或 群体 活动 规律 。 简 单 来 说 ,用 户 自身 的 活动 规律 和 相似 人 群 的 活动 规律 以 不 同 的 
概率 影响 用 户 的 下 一 访问 位 置 。 攻 击 者 通过 训练 后 的 集成 模型 预测 用 户 的 行为 ,实现 对 用 
户 具 体位 置 隐私 的 攻击 。 

本 节 分 别 介绍 常用 的 用 户 活动 规律 描述 模型 和 它们 在 用 户 去 匿名 攻击 及 敏感 位 置 推理 
和 位 置 预测 中 的 应 用 。 相 关 定 义 主 要 参考 了 文献 ""] 。 模 型 参数 通常 采用 成 熟 的 机 器 学 习 
算法 进行 训练 ,例如 EM 算法 等 ,本 节 对 此 不 做 具体 讨论 。 


1. 马尔 可 夫 模 型 及 攻击 

马尔 可 夫 模型 (Markov Model) 描 述 了 一 类 随机 过 程 ,该 过 程 的 输出 状态 随时 间 而 变 
化 。 这 些 输 出 状态 并 不 是 互相 独立 的 ,每 个 状态 的 值 依赖 于 在 它 之 前 输出 的 状态 。 如 果 当 
前 状态 的 值 只 依赖 于 前 一 个 状态 的 值 , 该 过 程 符合 一 阶 马尔 可 夫 模 型 。 对 应 地 ,存在 二 阶 和 
高 阶 马 尔 可 夫 模 型 。 其 中 ,马尔 可 夫 链 是 状态 和 时 间 参 数 均 为 离散 的 马尔 可 夫 过 程 ,也 是 最 
基础 的 马尔 可 夫 过 程 。 如 果 假 设 用 户 下 一 位 置 只 与 前 m 步 的 位 置 有 关 , 并 且 用 户 移动 的 时 
间 和 位 置 有 限 .那么 ,可 以 根据 马尔 可 夫 链 对 用 户 历史 轨迹 进行 建 模 。 基 于 用 户 数据 训练 完 
成 的 马尔 可 夫 模 型 ,攻击 者 能 够 利用 用 户 的 当前 位 置 预测 其 下 一 个 可 能 的 位 置 . 以 后 若干 步 
的 转移 路 径 、 轨 迹 的 终点 等 ,从 而 威胁 用 户 的 具体 位 置 
隐私 。 

定义 5-28( 马 尔 可 夫 链 ) 设 {X,,n 二 0,1,2,…} 是 
一 个 随机 序列 ,对 任意 NZ81. 09 ni <m nm 
nn 及 i sig yt sin-1 if ED, 4 P(X, =i, X, Si RR 
N)20H E PCXnim=Jj | Xa =i, Xn, —ü 1 END = 
PCXy+m=j|X,=i) m1, WRK (X,.n—0.1,2, 7) 293 
尔 可 夫 链 。 如 图 5-16 所 示 。 

在 定义 5-28 中 ,@ Æ X, 的 状态 空间 , 它 表 示 马 尔 可 
夫 链 X, 所 有 可 能 的 取 值 。{X, 二 让 表示 过 程 在 时 刻 
位 于 状态 i 这 一 事件 。 如 果 对 任意 宫 ,io,…,in-1,i,j€B,n 宇 0 WH PCXy4m =i |X, 5i; 
X, Si ISKN) =P (Xam =j |X —i) = PL” Cn) WEK PLP G028 X, 的 m 步 状 态 转 
BE, 34 m—11 ER n20. id P(X, =j X, 5i) - P478 X, 的 1 步 状 态 转移 概率 。 
这 一 定义 表明 TE Cu AE 8E Za SE PE CX, — 1) BO EDU FR ,将 来 时 刻 事 件 CX, 7j) SAKA 
刻 事 件 {Xw =i SASN EREI, RAE SRE. PSR RES 
M n HARRE X, =i 转换 到 十 m 时 刻 的 状态 X,+w 一 7 的 转移 概率 与 起 始 时 间 无 关 ， 
则 称 之 为 齐 次 的 。 








图 5-16 马尔 可 夫 模 型 示意 图 
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在 实际 的 建 模 过 程 中 ,通常 将 地 图 上 可 达 的 位 置 集合 定义 为 状态 空间 @, 由 用 户 的 出 行 
历史 计算 得 出 状态 转移 概率 P。 如 果 用 户 从 不 在 两 个 地 点 之 间 发 生 转移 ,那么 这 两 个 地 点 
间 的 转移 概率 为 0。 否 则 ,统计 用 户 从 当前 地 点 A 转移 到 地 点 B 的 次 数 ,将 该 次 数 占 从 A 
转移 到 所 有 另 一 地 点 的 总 次 数 的 比例 记 为 A 一 已 的 转移 概率 。 例 如 ,在 图 5-17 中 ,用 户 从 
Home 出 发 的 轨迹 共 20 次 ,其 中 14 次 去 往 CRB,4 次 去 往 VA ,其余 2 次 去 往 其 他 地 点 。 











图 5-17 用 户 地 点 转移 概率 示意 图 


Ashbrook 等 人 [5 首次 将 马尔 可 夫 模 型 应 用 到 地 理 位 置信 息 分 析 中 ,并 依据 用 户 移动 
马尔 可 夫 模 型 预测 用 户 的 下 一 位 置 。 在 用 户 智能 助理 的 应 用 场景 中 ,需要 结合 地 理 信息 来 
理解 用 户 行 为 ,预测 用 户 当 前 任务 ,从 而 为 用 户 提供 高 质量 的 服务 。 在 这 一 场景 中 ,智能 助 
理 更 关注 的 是 用 户 在 什么 地 点 消耗 了 时 间 , 以 及 用 户 下 一 时 刻 会 去 哪个 地 点 。 因 此 ,智能 助 
理 首 先 需 要 发 现 用 户 停留 的 地 点 。 所 以 ,在 数据 处 理 中 更 关注 时 间 空 缺 (gap)。 出 现时 间 空 
缺 通常 意味 着 用 户 停止 运动 或 者 进入 了 GPS 信号 不 好 的 建筑 物 内 ,也 就 意味 着 用 户 进 入 某 
场所 。 因 此 ,当时 间 空 缺 长 度 大 于 1 时 ,意味 着 用 户 在 重要 位 置 (place) 停 留 。 发 现 用 户 停留 
的 重要 位 置 , 对 理解 用 户 的 行为 规律 和 区 分 不 同 用 户 的 兴趣 转移 特征 具有 重要 意义 。 考 虑 
到 效率 问题 ,这 也 是 轨迹 数据 的 重要 预 处 理 步 骤 。 

由 于 GPS 采样 误差 ,即使 用 户 在 同一 地 点 静止 10min, GPS 记录 的 地 点 信息 也 并 不 完 
全 相同 。 为 避免 这 一 误差 ,可 采用 k-means 聚 类 方法 标记 用 户 重要 位 置 ,将 形成 的 聚 类 记 为 
地 点 (location) 。 同 时 ,为 了 在 不 同 尺 度 上 对 用 户 行为 进行 预测 ,可 在 细 粒 度 层 次 引入 子 地 
点 (sublocation) 的 概念 。 子 地 点 是 比 地 点 尺度 更 小 的 位 置 聚 类 。 在 每 一 个 地 点 聚 类 上 ,以 
不 同 的 半径 作为 k-means 的 参数 多 次 重复 聚 类 ,会 不 断 有 位 置 点 从 聚 类 中 离散 出 来 ,导致 聚 
类 中 包含 的 位 置 数目 发 生 相 应 的 变化 。 由 多 次 试验 可 以 发 现 , 聚 类 中 的 位 置 数目 会 在 某 一 
特定 参数 时 发 生 转 折 , 此 时 对 应 的 子 聚 类 即 为 子 地 点 ,如 图 5-18 所 示 。 地 点 和 子 地 点 可 以 
在 较 大 和 较 小 尺度 上 分 别 描述 用 户 的 行动 特征 ,而且 避 免 了 GPS 采样 误差 的 影响 。 

随后 ,可 基于 用 户 在 地 点 之 间 的 时 序 转移 特征 为 其 用 户 建立 马尔 可 夫 模 型 。 对 于 适用 
的 马尔 可 夫 模 型 的 阶 数 ,Ashbrook 等 人 利用 现 有 数据 进行 了 实验 分 析 , 证 明 二 阶 马尔 可 夫 
模型 相对 普 适 ,能 够 以 较 高 概率 预测 用 户 下 一 地 点 。 

在 以 马尔 可 夫 模 型 建 模 过 程 中 ,通常 假设 用 户 历史 轨迹 为 齐 次 马尔 可 夫 链 。 分 析 者 可 
根据 数据 特点 对 数据 处 理 方法 或 者 模型 进行 更 新 。 例 如 , Alvarez-Garcia 55 AU? fH P ff 
轨迹 信息 与 当地 的 路 网 信息 结合 ,能 更 精确 地 预测 用 户 当 前 行程 的 目的 地 。Gambs 55 AU? 
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聚 类 半径 Im 
图 $-18 ”地 点 与 子 地 点 关系 示意 图 


对 用 户 进行 基于 地 点 密度 的 聚 类 后 ,得 到 用 户 轨 迹 的 POL, 以 MMC (Mobility Markov 
Chain ,移动 性 马尔 可 夫 链 ) 模 型 计算 POI 之 间 的 转移 概率 。 也 有 研究 者 将 离散 时 间 的 马尔 
可 夫 链 模型 更 新 为 连续 时 间 模 型 "9 ,从 而 更 好 地 模拟 用 户 停留 与 转移 的 状态 变化 过 程 。 

但 是 ,基于 模型 的 方法 有 一 个 共同 的 缺点 , 即 当 用 户 行为 规律 发 生变 化 时 ,需要 较 长 时 
间 才 能 完成 模型 的 更 新 。 例 如 ,用 户 是 一 个 学 生 ,在 某 个 学 期 按照 课表 在 不 同 教学 楼 不同 
校区 之 间 转 移 , 以 完成 课程 学 习 。 当 下 一 个 学 期 到 来 时 ,她 的 行动 规律 发 生 明 显 变化 ,但 模 
型 不 会 即时 更 新 。 为 此 ,可 采取 时 间 加 权 等 方式 对 模型 进行 更 新 ,并 需要 削减 用 户 一 次 性 活 
动 的 影响 。 

2.， 隐 马尔 可 夫 模 型 及 攻击 

隐 马 尔 可 夫 模型 是 马尔 可 夫 模 型 的 扩展 。 与 简单 马尔 可 夫 模 型 不 同 , 在 隐 马 尔 可 夫 模 
型 中 ,可 被 观测 到 的 观测 序列 并 不 等 同 于 状态 序列 。 也 就 是 说 ,在 隐 马 尔 可 夫 模型 中 ,系统 
不 但 按照 一 定 的 概率 进行 不 可 观测 的 状态 转移 ,在 处 于 某 状态 时 ,还 以 不 同 的 概率 被 观测 到 
不 同 的 观测 状态 。 隐 藏 状态 和 观测 状态 的 数目 不 一 定 相 同 。 例 如 ,不 同学 生 用 户 可 能 有 相 
同 的 上 课 、 就 餐 状 态 和 不 同 的 健身 、 就 医 状态 ,这 些 状态 不 可 直接 观测 。 而 学 生 用 户 处 于 上 
课 状 态 时 也 可 能 被 观测 到 出 现在 不 同 的 教室 。 隐 马尔 可 夫 模 型 中 新 增 的 隐藏 状态 这 一 概念 
增强 了 模型 的 解释 能 力 ,为 用 户 的 行为 提供 了 符合 常识 的 解释 。 此 外 ,隐藏 状态 和 观测 状态 
的 对 应 关系 也 为 位 置 轨迹 数据 预 处 理 过 程 中 的 地 点 和 子 地 点 间 的 关系 提供 了 对 应 的 映射 和 
度量 标准 。 

和 马尔 可 夫 模 型 相同 ,基于 隐 马 尔 可 夫 模 型 ,攻击 者 仍 可 以 推测 到 用 户 的 具体 位 置 隐 
私 。 下 面 介绍 基于 用 户 相似 性 进行 去 匿名 攻击 的 方法 。 同 样 ,只 要 定义 了 合理 的 相似 性 度 
量 方法 ,攻击 者 也 可 以 利用 训练 好 的 其 他 模型 来 识别 匿名 用 户 。 

定义 5-29( 隐 马尔 可 夫 链 ) WX, m1 是 取 值 于 有 限 状态 空间 @ 一 {1,2,…',/) 的 齐 次 
马尔 可 夫 链 , 假 设 X, 的 取 值 范围 及 其 状态 转移 链 路 是 不 能 观测 的 ,Y, ,n 宇 1 是 一 个 与 X， 
有 某 种 联系 ,并 取 值 于 有 限 集 V 二 {vi ,vs,….v} 的 可 观测 、 相 互 独立 的 随机 变量 序列 , 则 称 
(X,Y) Abe BARA ARE. WE 5-19 所 示 。 

Wrs {ms m, sm) m; —POX, =i) i EO H X, 的 初始 分 布 。a; = 
P(X,a—jlX,—i).i.j€ JE X, 的 一 步 转移 概率 ,A 一 (a; ) 是 一 步 转移 概率 矩阵。b; = 
P(Y, =v; |X, —i) ,i€E 6.v; EV 表示 当 状 态 过 程 在 时 刻 n 取 到 状态 i 的 条 件 下 ,观察 序列 在 
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A 5-19 隐 马 尔 可 夫 模 型 示意 图 


Al n CR (Ho; 的 概率 , 且 记 B= (bs). PAF X, 是 不 可 观测 链 , 故 x、A、B 均 不 可 直接 测量 
eit, BR A= {x,A,B} 是 隐 马 尔 可 夫 链 (X, Y ) 的 数学 模型 。 

在 实际 建 模 过 程 中 ,Gambs 等 人 中 基于 用 户 POI 的 分 析 建 模 类 似 于 对 用 户 隐 含 状 态 
的 挖掘 。 但 是 ,这 一 类 方法 发 现 的 POL 仅 依 据 地 理 位 置 特征 ,而 没有 充分 利用 用 户 移动 轨 
迹 的 时 间 特 征 。 

用 户 的 移动 行为 往往 是 和 时 间 密 切 相关 的 中。 例如 ,多 数 人 会 在 上 午 9:00 左右 去 上 
班 而 不 是 去 酒吧 ,下班 后 去 娱乐 消遣 而 不 是 去 图 书馆 。 因 此 ,用 户 的 移动 轨迹 所 包含 的 时 间 
属性 对 用 户 移动 行为 分 析 具 有 重大 意义 。 以 时 间 为 隐 含 态 ,以 轨迹 点 为 观察 态 ,使 用 隐 马 尔 
可 夫 模 型 对 用 户 的 行为 规律 进行 建 模 ,并 以 此 为 基础 进行 用 户 去 匿名 攻击 ,也 是 一 种 可 行 的 
途径 。 

在 建 模 过 程 中 ,首先 考虑 用 户 移动 轨迹 中 包含 的 空间 属性 。 可 以 利用 位 置 炉 (Location 
Entropy,LE) 来 度量 这 种 空间 属性 。 给 定 用 户 ,他 访问 过 的 位 置 集合 为 L, 访 问 其 中 单个 位 
置 1 的 概率 为 p (L) ,该 用 户 的 位 置 炉 定义 为 


H(L)=— 5p (J) log: p0) 
IEL 


TR A A 8 BOR E PR . n R H Vd) As Fi] fr E DH EE AE E). BO VIEL p= qp 


TE [SE BERA 58 e Kc f FCS fr C A A AE SON Ho (L) = log, |L | 。 对 一 
AS HI Poe do . 2: BAER «Be 83 B P Ur T] Af [i] A 8 AS ABE BO f. JCS 2 £7 28 RA) T]HE 
越 不 明显 。 因 此 ,用 户 移动 行为 的 空间 倾向 性 定义 为 
degs (L) - COTRA 
"JU, s Ap HI P? 10 Cg ABE EC EY PE (EUER, o HERS 2 £3 29 B5) 5 DE f e PE ER] E 。 
ets BE IER PUER PL A E TR JS E E EE C — RESET] IRI 9 fi FE HB] Time-A ware 
Location Entropy. TALE) : 
H(L| T)=— D pO Mp (| t)log pd | 0) 
(€T IEL 
其 中 ,T={0,1,…,23} 是 时 间 段 的 集合 ,例如 ,13 表示 13:00~13:59 这 个 时 间 段 。P(z) 表 
示 用 户 在 时 间 段 + 访 问 一 个 位 置 的 概率 。p(1|z) 表 示 用 户 在 时 间 段 1 访问 位 置 1 的 概率 。 
类 似 地 ,还 可 以 定义 用 户 移动 行为 的 时 间 倾 向 性 。 很 容易 发 现 , 当 用 户 在 不 同时 间 段 均匀 
访问 一 个 位 置 时 ,用 户 的 TALE 较 大 。 在 这 种 情况 下 , VIEL. Vi€ T. p(t) =p(1) ,因此 有 
H(L| T)=— Dp Pp (Dog (D = >) p(t)H (L)= H) 
IET IEL (€T 
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所 以 ,用 户 移动 行为 的 时 间 倾 向 性 可 定义 为 
KLT) _ H(L)— H(L | T) 
H) H(L) 
其 中 ,I(L;T) 是 L 和 TT 的 互信 息 , 表 示 时 间 段 对 位 置 访问 频率 的 影响 。 显然,TALE 的 最 
EE E EUG 

在 Geolife Zi fE E ETT I Sco 4 OTe. EK SBOP AY ic SS TALE 并 不 相等 ， 
也 就 是 说 ,用 户 的 时 间 倾 向 性 非 零 。 实 际 上 ,在 Geolife 数据 集中 ,有 95% KY 8 P fi at pa] ft 
向 性 大 于 0.1。 这 表明 ,这 些 用 户 的 移动 行为 具有 明显 的 时 间 倾 向 性 。 

基于 这 一 发 现 , 考 虑 将 时 间 因 素 、 空 间 因 素 综合 考虑 到 模型 中 ,并 建立 一 种 时 空 感知 的 
用 户 隐 马尔 可 夫 模型 (Spatio-Temporal User Hidden Markov Model, ST-UHMM) ,作为 分 
析 用 户 移动 模式 和 进行 去 匿名 攻击 的 基础 。 下 面 详 细 介绍 ST-UHMM 的 构成 。 

定义 5-30( 时 空 感知 的 用 户 隐 马尔 可 夫 模 型 ) 对 一 个 用 户 ,将 其 ST-UHMM 定义 为 
-METH p={S,II,A,0,E}. 

S= (so ssi ttt ,sa} 是 状态 空间 ,每 个 元 素 作为 一 个 隐 含 状态 ,sz4 为 终止 状态 。 除 sx 之 
外 ,每 个 隐藏 状态 对 应 一 个 时 间 段 ,例如 ,so 对 应 凌晨 0:00 一 0:59 的 时 段 。 如 果 状 态 转移 到 
sm ,用 户 在 这 一 天 不 再 访问 任何 位 置 。 

开 是 状态 的 初始 概率 集合 。 一 个 状态 s,(1ET) 的 初始 概率 是 每 天 这 个 用 户 首先 在 时 间 
段 1 访 问 一 个 位 置 的 概率 ,定义 为 





degrr (L.T) 





a, 


7, = p(s) = m 





ay 
é-0 


a, 表示 有 多 少 天 这 个 用 户 首先 在 时 间 段 上 访问 一 个 位 置 。 
A 是 状态 转移 概率 集合 。 状 态 s(t1 ET) 到 状态 5 (ts € TU {24})) 的 转移 概率 定义 为 


其 中 ,及 表示 有 多少 天 用 户 在 时 间 段 n 访问 一 个 位 置 ;B, ,表示 有 多 少 天 用 户 在 4 访 
问 一 个 位 置 且 在 刀 访 问 下 一 个 位 置 。 例 如 ,B&。 表 示 有 多 少 天 用 户 在 时 间 段 a 访问 一 个 位 
置 ,然后 在 当天 不 再 访问 任何 位 置 。 一 个 状态 到 它 自身 的 转移 是 存在 的 ,因为 用 户 可 能 在 同 
一 个 时 间 段 内 访问 多 个 不 同位 置 。 

O- (01 +02 ,…,on} 是 观察 态 集合 ,集合 中 的 每 个 元 素 是 用 户 访问 的 一 个 位 置 ,， 是 用 户 








访问 的 位 置 数 。 
已 是 状态 输出 概率 集合 。 当 状态 为 wCE 了 ) 时 输出 观察 态 为 o(1<k<n) 的 概率 是 
eG,.0,) = p(o: | t) FG 
DG +08) 


其 中 ,f(s, o) RRA SP UR AE of Ti) Bt t Ui IR i o o 

基于 ST-UHMM ,可 以 获得 每 个 用 户 的 移动 行为 模型 。 为 基于 模型 进行 用 户 重 识别 ， 
可 进一步 定义 ST-UHMM 之 间 的 相似 度 : 时 空 感知 的 余弦 相似 度 (Spatio-Temporal 
Cosine Similarity, STCS) .时空 感知 的 增强 相似 度 (Spatio-Temporal Enhanced Similarity, 
STES) 。 直 观 上 ,两 个 用 户 (ST-UHMMD) 在 同一 时 间 段 的 共同 访问 位 置 越 多 ,可 认为 他 们 
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越 相 似 , 越 可 能 是 同一 个 人 。 基 于 这 个 认识 ,定义 STCS 为 
X plot) + gol0,t) 




















* oO UO, 
Simsrc Gn s) 20] 3 3 
€T [| 3 got)? [| $3, &GD'! 
0€0, UO, »€0, UO, 


Hsu = Si IT;,A;,0O;,E;) 是 描述 用 户 wi 的 移动 行为 的 ST-UHMM ,gq; (o.£) —1 表示 用 
P! wi FEM TR] BE c 访问 过 位 置 o ,qi;(o,t) 二 0 则 表示 用 户 w 在 时 间 段 上 没有 访问 过 位 置 o。 
STCS 的 定义 考虑 了 ST-UHMM 在 每 个 时 间 段 的 共同 位 置 ,但 是 ,不 同 用 户 在 同一 时 
间 段 访问 这 些 共 同位 置 的 倾向 性 未 必 相 同 。 直 观 上 ,两 个 用 户 在 同一 时 间 段 内 访问 共同 位 
置 的 倾向 性 越 接近 ,他 们 越 相 似 , 也 越 可 能 是 同一 个 人 。 因 此 ,将 STES 定义 为 
X (1 =| &i(ss0)— e (90) |) 
Simsr (à yp ) = Me £a TO. UG. | 


其 中 ,wi 为 不 同时 间 段 i EO, Pe, 在 时 间 段 : 访问 位 置 的 集合 。STES 在 考虑 
用 户 每 个 时 间 段 的 共同 访问 位 置 的 同时 ,也 考虑 了 访问 共同 位 置 的 倾向 性 。 用 户 在 每 个 时 
间 段 访问 共同 位 置 的 倾向 性 越 接近 , 即 ei (s,,0) 和 es(s,,0) 越 接近 , 则 Simsre (za ,wa ) 越 大 ， 
反之 则 两 者 的 STES 值 越 小 。 

显然 ,基于 用 户 ST-UHMM 和 任意 两 个 用 户 的 STCS、STES, 可 从 测试 集中 匹配 、 识 别 
出 训练 集中 与 其 最 相似 的 用 户 , 并 根据 冰 值 判断 两 者 是 否 是 同一 用 户 ,从 而 完成 去 匿名 攻 
击 。 实 验 结果 也 表明 ,综合 考虑 时 空 因素 比 单独 考虑 空间 因素 能 够 更 有 效 地 识别 出 匹配 的 
用 户 。 而 且 , 对 于 Geolife 数据 集 来 说 ,STES 相似 度 比 STCS 相似 度 能 更 好 地 判断 用 户 的 
相似 程度 。 

此 外 ,利用 Viterbi 算 法 和 现 有 ST-UHMM, 也 可 以 实施 去 匿名 攻击 。Viterbi 算法 能 
够 计算 用 户 的 ST-UHMM 与 匿名 轨迹 的 匹配 程度 。 根 据 一 定 的 匹配 阔 值 或 者 投票 算法 ， 
攻击 者 可 以 确定 与 匿名 轨迹 最 匹配 的 模型 ,进而 确定 匿名 轨迹 的 属 主 身份 ,实现 去 匿名 。 
Viterbi 算法 的 具体 内 容 在 此 不 作 讨论 。 

3. 混合 高 斯 模型 及 攻击 

高 斯 过 程 是 指 服从 有 限 维 高 斯 分 布 ( 又 称 正 态 分 布 ) 的 随机 过 程 。 例 如 群体 的 身高 、 实 
验 中 的 随机 误差 都 表现 为 正 态 或 近似 正 态 分 布 。 混 合 高 斯 模型 是 指 将 建 模 对 象 分 解 为 若干 
基于 高 斯 分 布 函 数 所 形成 的 模型 。 与 本 节 前 两 个 模型 相同 ,训练 好 的 混合 高 斯 模型 也 能 够 
预测 用 户 的 下 一 位 置 ,暴露 用 户 的 位 置 隐私 。 通 过 一 系列 相似 度 比较 ,匿名 用 户 也 能 够 被 重 
新 识别 出 来 。 

定义 5-31( 高 斯 过 程 ) 设 {X(t).,tET} 是 一 个 随机 过 程 ,如 果 对 于 任意 ,ts,*…,t, E 
T. {X (wot ) X (wst) X (wot, ) HA n 维 正 态 分 布 , 则 称 {X(1) ,iET} 是 高 斯 过 程 ， 
且 其 有 限 维 联合 分 布 密度 函数 为 











Sf (th ote ott? stn $11 9X2 tttm.) exp i G — 0B! (x ort 


(2x) |B|* 
FOB (ay tn tx P Ap sps spa} p EQX (65) ) i7 1.2, mn B= (by nxn I 
X (1) bP Ir 25 ROB IE sby = EUCX (ti) p OX (5) ^90). 

简单 的 一 维 高 斯 分 布 的 概率 密度 函数 如 图 5-20(a) 所 示 。 混 合 高 斯 分 布 对 单一 高 斯 分 
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布 的 概率 密度 函数 进行 扩展 ,能 够 平滑 地 近似 不 同形 状 的 概率 密度 分 布 ,如 图 5-20(b) 所 示 
的 数据 更 符合 混合 高 斯 分 布 。 混 合 高 斯 分 布 的 概率 密度 函数 可 通过 单个 高 斯 分 布 的 加 权 
表示 。 
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(a) 一 维 高 斯 分 布 (b) 混合 高 斯 分 布 


图 5-20 高 斯 分 布 的 概率 密度 函数 示意 图 


在 实际 应 用 中 ,分 析 者 发 现 用 户 的 移动 行为 具有 中 心性 , 即 用 户 围绕 若干 地 理 位 置 中 心 
活动 。Gonzalez 等 人 中 通过 手机 数据 研究 人 类 移动 ,发 现 人 们 会 定期 回 到 少量 的 之 前 访问 
过 的 位 置 , 移 动 规律 可 以 建 模 为 以 一 个 固定 点 为 中 心 的 随机 过 程 。Song 等 人 中 的 实验 证 
明 ,93% 的 人 类 移动 具有 高 度 的 规律 性 ,在 70% 的 情况 下 用 户 都 在 他 最 经 常 访问 的 位 置 。 

基于 上 述 研 究 成 果 可 以 发 现 , 用 户 移动 行为 模式 在 一 定 程度 上 符合 高 斯 分 布 的 特 
GE) ,如 图 5-21 所 示 。 进 一 步 地 ,可 以 将 这 种 特征 理解 为 用 户 在 固定 的 时 间 段 围绕 几 个 中 


Y adn A. N P 











图 5-21 用 户 位 置 高 斯 分 布 示意 图 
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心 点 的 运动 ,因此 ,可 以 尝试 用 混合 高 斯 模型 为 用 户 移动 建 模 。 其 中 ,位 置 分 布 概率 采用 混 
合 高 斯 模型 建 模 提取 ,并 结合 周期 性 和 社交 性 的 模型 来 预测 用 户 下 一 位 置 。 

为 确定 高 斯 模型 的 参数 ,首先 需 分 析 用 户 签到 行为 的 特征 。 在 多 个 数据 集中 实验 发 现 ， 
包括 BrightKite( 全 球 签到 信息 )、Gowalla( 全 球 签到 信息 )、 手 机 基站 (国内 签到 信息 ) 数 据 
集 , 用 户 的 签到 最 远 距 离 通常 分 布 在 离 家 100km 之 内 。 超 过 100km 时 ,用 户 签到 概率 会 出 
现 明显 降低 。 这 一 发 现 表 明 , 用 户 日 常 的 活动 半径 有 限 ,在 驱车 1 一 2h 可 达 的 范围 内 。 

其 次 ,需要 确定 用 户 行为 的 时 间 周期 性 特征 , 即 用 户 访问 地 点 的 重复 性 。 数 据 集 分 析 表 
HH „Brightkite 中 53% 的 签到 曾经 被 该 用 户 访问 过 ,Gowalla 中 31% 的 签到 曾经 被 该 用 户 访 
问 过 。 这 意味 着 ,在 Brightkite 数据 集中 ,如 果 用 户 首次 访问 某 地 点 ,那么 有 53% 的 概率 用 
户 会 再 次 访问 这 一 地 点 。 

另外 ,还 需要 考虑 用 户 地 理 位 置 和 周期 性 的 相关 性 ,例如 ,不 同 地 点 在 不 同时 间 的 访问 
频率 特征 等 。 分 析 用 户 在 每 周 内 的 任 一 小 时 访问 地 点 的 科 ,发现 用 户 访问 一 个 新 地 点 ( 焙 增 
强 ) 的 行为 具有 极 强 的 时 间 规 律 。 对 每 天 来 说 ,早上 时 段 的 位 置 炉 值 最 低 , 因 为 大 多 数 用 户 
早上 都 是 在 家 。 当 用 户 通勤 和 下 班 后 娱乐 的 时 段 , 地 点 炉 值 增高 。 同 时 ,工作 日 的 炉 值 比 周 
末 的 炉 值 低 ,因为 大 多 数 人 都 在 上 班 。 用 户 行为 的 周期 性 特征 如 图 5-22 所 示 。 


BrightKite 用 户 周期 
ts a”. 
NS saa TT 
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周一 周二 周三 周 四 周 五 周 六 周 日 
图 5-22 用户 行为 的 周期 性 特征 











基于 用 户 行为 的 这 些 特 征 , 可 建立 用 户 移动 模型 , 即 PMM(Periodic Mobility Model, Ji 
期 性 移动 模型 )。 这 一 模型 假设 用 户 是 在 一 系列 隐 含 状态 (地 点 ) 间 的 周期 性 移动 。 简 单 来 
讲 , 用 户 有 两 个 基本 状态 ,家 和 公司 。 在 每 天 的 不 同时 段 ,用 户 的 活动 范围 分 别 围绕 家 和 公 
司 ,或 者 在 两 者 之 间 通 勤 。 因 此 ,这 一 模型 主要 包含 两 个 关键 部 分 : @D 为 每 个 用 户 推测 出 其 
两 个 隐 含 状态 的 地 理 中心 ,并 为 其 建立 高 斯 分 布 模型 ; @ 为 每 个 用 户 建 立时 间 和 隐 含 状态 
的 相关 概率 分 布 函 数 。 也 就 是 说 ,这 一 模型 将 用 户 签到 的 过 程 模 拟 为 两 步 的 分 析 过 程 ,用户 
首先 根据 当前 时 间 判 断 自己 是 在 家 或 者 在 公司 的 状态 ,然后 根据 当前 状态 和 对 应 状态 下 的 
地 理 位 置 分 布 , 选 择 一 个 位 置 签到 。 如 图 5-23 所 示 。 

PPM 包含 若干 要 素 。: 为 当前 时 间 ,zx, (OHH u 在 时 刻 t 的 位 置 ,C, CO EHE P u 在 
时 刻 t 的 状态 。 如 果 C, (4) — H AIA AP u 处 于 以 家 为 核心 的 状态 ,C, (0) =W 表明 
时 刻 t 用户 w 处 于 以 公司 为 核心 的 状态 。 用 户 签到 位 置 分 布 是 由 用 户 处 于 在 家 或 在 公司 状 
态 下 的 位 置 分 布 决定 的 , 即 P[z(1) 二 zx|1C,(z)]。 也 就 是 说 ,用 户 在 时 刻 t 的 签到 位 置 分 布 
概率 是 在 家 和 在 公司 两 种 状态 下 的 位 置 分 布 的 混合 , 即 P [z(t)=zx] = 
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PMM 示意 图 
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图 5-23 
P[x(t)=z|C,(t)=H] * P[C, (£z) *H] 








EP [r(t) —2xlC, (1t) -W] * PLC, (7t ^W]. & 


然 , 用 户 只 能 处 于 在 家 或 者 在 公司 两 个 状态 中 的 一 个 ,而 这 两 个 状态 下 的 地 理 位 置 分 布 是 相 


互 独立 的 。 基 于 这 种 思想 ,PPM 对 用 户 状 


态 和 地 理 位 置 分 布 分 别 独立 建 模 。 























首先 ,PPM 需要 确定 用 户 所 处 的 状态 。 通 常 假设 用 户 x REI PEC ONEA 
斯 模型 。 
Nw(t) ml (s) RO 
P[C,(() - H] MOEN 
PI[C.(2)= W] NODE 





其 中 ,za 为 一 天 中 用 户 处 于 家 的 状态 的 平均 时 长 (时 段 ) ,6 为 对 应 的 方差 ,Po 为 任意 签到 


位 置 所 属 状 态 为 家 的 时 间 独 立 概率 。 为 计 


算 方便 ,t 和 ra 都 以 时 钟 上 的 角度 表示 。 


其 次 ,PPM 将 用 户 处 于 家 或 公司 状态 的 位 置 分 布 用 二 维 时 间 独 立 的 高 斯 分 布 来 建 模 。 


这 一 模型 表示 为 


~ NGn 2, HD. 


P[z.@) = z; | C,C0]— 


4 Ca) = H if 


Nuw. X W), CGO = Wit 


Hop. DH, DW 分 别 是 在 家 和 在 公司 两 种 状态 的 签到 位 置 的 协 方差 矩阵 opn yw 分 别 是 


用 户 在 家 和 在 公司 两 种 状态 的 签到 位 置 的 


由 此 可 见 ,PMM 结合 了 基于 时 间 的 用 户 状 态 建 模 和 时 间 独 立 的 用 户 地 理 位 置 分 布 建 


模 两 个 过 程 ,建立 了 用 户 位 置 的 初步 模型 


平均 中 心 位 置 。 


p 





。 但 是 ,PMM 忽略 了 用 户 行为 受 朋 友 影 响 的 特 


征 。 显 然 , 用 户 有 一 定 概 率 访问 朋友 访问 过 的 地 点 。 因 此 ,还 可 以 进一步 地 将 PMM 扩展 为 
PSMM (Periodic & Social Mobility Model, 周 期 性 和 社交 性 移动 模型 ) ,将 社交 因素 的 影响 
也 包括 进来 。 利 用 EM 算法 ,可 分 别 训练 获得 相关 的 参数 和 最 终 模型 。 

实验 发 现 , 比 起 只 设 定 家 和 公司 两 个 隐 含 状态 E 3 或 4 个 隐 含 状态 能 够 获得 更 好 的 
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准确 度 ,但 是 准确 度 的 提升 程度 随 着 隐 含 状态 增多 而 快速 衰减 。 因 此 ,综合 考虑 效率 和 准确 
度 等 因素 ,两 个 状态 已 经 能 够 较 好 地 描述 用 户 的 移动 。 


4, 贝 叶 斯 模型 及 攻击 

此 外 ,也 有 研究 者 利用 贝 叶 斯 模型 尝试 解决 位 置 推 测 问题 。 利 用 贝 叶 斯 定理 ,可 以 依靠 
与 某 不 确定 事件 相关 的 事件 发 生 的 概率 来 推测 该 事件 的 概率 。 基 于 这 一 特点 , 贝 叶 斯 模型 
通常 用 来 进行 用 户 轨迹 重建 ,进而 发 现 用 户 轨迹 中 隐藏 的 敏感 位 置 。 


P(ANMB) _ P(A)P(B\A) AE 
定义 5-32( 贝 叶 斯 定理 ) P(A|B) POD PCB) : 即 在 事件 B 出 现 的 前 


提 下 事件 A 出 现 的 概率 (后 验 概率 ) 等 于 A 出 现 的 概率 ( 先 验 概率 ) 乘 以 调整 因子 (事件 A 
发 生 的 前 提 下 事件 B 发 生 的 概率 除 以 事件 B 发 生 的 概率 ) 。 

Sadilek 等 人 中 采用 动态 贝 叶 斯 网 络 ,利用 朋友 的 历史 和 情景 信息 做 位 置 的 预测 。Xue 
等 人 中 在 此 基础 上 进一步 考虑 了 数据 稀 疏 问题 ,采用 将 轨迹 分 解 成 若干 子 轨迹 ,利用 子 轨 
迹 生 成 + 阶 可 达 转 移 矩阵 ,扩大 预测 空间 ,通过 贝 叶 斯 对 所 有 位 置 进行 预测 ,将 提取 的 top 
N 位 置 返回 ,实现 较为 准确 的 用 户 位 置 预测 。 相 对 于 前 面 介绍 的 几 个 模型 , 贝 叶 斯 模型 能 
够 以 后 验 概 率 提升 用 户 位 置 预测 的 准确 度 。 

贝 叶 斯 预测 架构 可 分 为 两 部 分 。 首 先是 训练 阶段 ,通过 对 历史 轨迹 离线 学 习 形 成 模型 ; 
其 次 是 预测 阶段 ,在 线 对 给 定 的 轨迹 进行 分 析 , 并 预测 该 轨迹 中 的 某 特殊 位 置 ,例如 该 轨迹 
的 终点 。 具 体 来 说 ,节点 n 成 为 当前 路 线 终点 的 概率 可 以 等 价 计算 为 在 给 定 当前 路 线 T* 
的 前 提 下 ,节点 nj 包含 终点 位 置 14 的 概率 。 其 中 ,节点 是 由 地 图 分 割 而 成 的 ,地 图 中 共有 
gXg 个 节点 ,每 个 节点 都 包含 很 多 具体 的 位 置 。 路 线 是 具体 位 置 所 在 的 节点 组 成 的 序列 。 
根据 贝 叶 斯 定理 ,这 一 概率 可 以 计算 为 


P(d € n; | T^) 














PCT? | d € n) P(d € n) 
E] 
E 





XPT? |d € m)PCd € n) 
k=1 


其 中 ,P(dEnj) 的 概率 可 计算 为 终点 位 于 nj 的 路 线 数目 占 所 有 路 线 数目 的 比例 。 即 PCE 
Ties 

| TD] | ,| 为 训练 集 的 大 小 , | Taen | 为 终止 于 PRAY. PCT? ld € nfi 
计算 则 要 确定 满足 以 下 两 个 前 提 的 路 线 数 目 : 首先 ,路 线 需 符合 当前 T^ ;其 次 ,终点 位 于 


| (Tae, | T'C Te, 
me BEART Aer I PCT? dn) — EE Eo < 和 其 他 模 理 一 样 ,利用 历史 加 


迹 训 练 好 相应 的 贝 叶 斯 模型 , 即 可 对 用 户 当前 轨迹 的 终点 进行 预测 。 该 方法 示意 如 图 5-24 
所 示 。 

Huo 等 人 中 将 贝 叶 斯 模型 作为 隐藏 位 置 推理 攻击 的 基准 模型 。 攻 击 者 假设 ,用 户 的 签 
到 行为 符合 某 一 种 或 几 种 模式 ,并 会 在 不 同 POI 之 间 周 期 性 地 移动 。 这 些 行为 模式 和 POI 
偏好 能 够 从 用 户 的 历史 数据 中 通过 学 习 获 得 。 因 此 .攻击 者 能 够 利用 大 多 数 用 户 的 行为 模 
式 去 猜测 用 户 访 问 某 个 POT 的 可 能 性 。 例 如 ,给 定 隐 和 藏 敏感 地 点 L, 和 签到 间隔 时 间 At, 用 





n= 


1AbD 的 关键 在 于 ,在 访问 2 A Wt Pk BK Al T Ln 。 
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图 5-24 ”路线 与 贝 叶 斯 模型 转化 示意 图 





im, itl im, itl 
IRA D REGERE P Vir [ay =P AVERT POT 。 对 于 用 户 大 来 说 ,确定 


的 At 意味 着 P(At) 是 常数 。 因 此 ,以 上 概率 可 近似 为 PVA | At) P. (CAL Vim) 
PCV” …)。 在 这 里 ,基准 推理 模型 基于 所 有 用 户 的 签到 历史 计算 用 户 访问 隐藏 地 点 1 的 
Cut 

概率 ,该 公式 中 的 部 分 内 容 发 生 了 变化 , POV) = oe 其 中 s 为 所 有 用 户 的 轨 
迹 ,C"” 表示 轨迹 s 是 否 依次 通过 地 点 4 和 12 其 值 只 可 能 为 0 9X 1. CP! 表示 轨 
W s 是 否 依 次 通过 地 点 4;、iri ,其 值 也 只 可 能 为 0 或 1。P CA Vim ) 可 利用 用 户 和 的 轨 
迹 单独 计算 。 

通过 以 上 改进 ,即使 用 户 从 未 主动 公开 其 访问 过 某 敏 感 位 置 ,攻击 者 仍 可 以 利用 人 和 群 的 
行动 规律 推测 该 用 户 访问 此 敏感 位 置 的 概率 。 

更 进一步 ,攻击 者 还 可 以 将 用 户 朋友 的 影响 力 考 虑 进来 ,从 而 增强 社交 关系 的 影响 。 因 
为 ,用 户 和 他 的 朋友 可 能 有 相似 的 兴趣 或 者 一 起 出 行 ,从 而 产生 类 似 的 出 行 行为 。 攻 击 者 考 
虑 用 户 的 朋友 密切 性 作为 新 的 参数 引入 基准 推理 模型 , 越 相似 的 朋友 的 行为 越 有 可 能 在 用 
户 身 上 出 现 。 朋 友 的 密切 性 通常 以 两 者 间 的 相似 性 定义 ,包括 两 者 间 的 社交 相似 性 和 出 行 


活动 相似 性 。 例 如 ,较为 常见 的 定义 形式 为 w (ej) 7e TEE + o E UE TOR 


中 ,a 是 介 于 0 和 1 之 间 的 调节 参数 ,F、F; RRP k j 的 朋友 集合 ,Li 、L; BAP kj Vi 
问 过 的 地 点 集合 。 在 所 有 用 户 的 轨迹 中 ,对 用 户 的 朋友 j 的 轨迹 青 进行 额外 的 加 权 处 理 ， 
D+ ww (ej Cen 














sP (At | Vi? ) 仍旧 利 





$3 aw (kD Ce 
HAP k 自身 的 轨迹 计算 。 


5. 推荐 系统 模型 及 攻击 

推荐 系统 被 广泛 地 用 来 发 现 用 户 潜在 的 兴趣 点 ,也 可 应 用 于 用 户 未 发 布 过 的 隐私 位 置 
推理 和 位 置 预 测 中 。 推 荐 系统 可 粗略 地 分 为 基于 内 容 的 推荐 ,基于 协同 过 滤 的 推荐 两 类 。 

由 于 用 户 位 置 轨迹 信息 大 部 分 不 包含 类 似 于 物品 内 容 的 抽象 信息 ,因此 大 多 不 适用 于 
基于 内 容 的 推荐 。 但 也 有 研究 者 针对 带 文本 属性 的 位 置信 息 和 利用 地 理 位 置 编码 转换 等 方 
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法 进行 以 内 容 推 荐 为 模型 的 位 置 推 测 研究 。 单 纯 的 用 户 轨迹 数据 中 并 不 包含 相应 的 文本 信 
息 ,本 节 对 此 不 作 讨论 。 

基于 协同 过 滤 的 方法 可 分 为 基于 用 户 的 过 滤 和 基于 物品 的 过 滤 两 种 。 基 于 用 户 的 过 滤 
方法 首先 通过 不 同 用 户 对 物品 的 工 向 量 发 现 相 似 的 用 户 集合 ,然后 向 集合 中 的 相似 用 户 推 
荐 其 他 人 喜欢 的 物品 。 基 于 物品 的 过 滤 方 法 通过 用 户 对 同一 物品 的 U 向 量 发 现 相 似 的 物 
品 集合 ,然后 向 喜欢 集合 中 某 物品 的 用 户 推 荐 相似 的 物品 。 如 表 5-6 所 示 。 


表 5-6 协同 过 滤 模 型 基本 数据 

















户 

用 U, U, And U, 

物品 
I, ay ap à, 
I, an an ds, 
j 2 Am amz Amn 














基于 推荐 系统 模型 的 攻击 方法 将 敏感 位 置 作为 特殊 物品 。 如 果 用 户 访问 历史 中 的 某 位 
置 与 敏感 位 置 相似 度 到 达 一 定 的 阔 值 , 则 预测 用 户 很 可 能 访问 这 一 敏感 位 置 。 同 理 , 如 果 与 
用 户 相 似 的 其 他 用 户 频繁 访问 这 一 敏感 位 置 ,用户 也 可 能 访问 相同 的 敏感 位 置 。 

与 电 商 推荐 系统 只 向 用 户 推荐 新 物品 不 同 , 在 进行 用 户 敏感 位 置 推理 和 用 户 位 置 预测 
时 ,需要 兼顾 用 户 轨迹 历史 中 的 旧 位 置 和 群体 中 其 他 用 户 访 问 过 的 新 位 置 。 在 实际 应 用 中 ， 
攻击 者 从 用 户 的 社交 关系 和 用 户 群 体 移 动 特征 相似 性 人 手 , 采 用 协同 过 滤 的 方法 进行 敏感 
位 置 推理 预测 。 研 究 人 员 通 过 收集 大 量 签到 记录 ,从 中 分 析 发 现 与 目标 用 户 行 为 模式 相似 
的 用 户 和 他 们 的 签到 习惯 ,进而 准确 地 掌握 目标 用 户 的 签到 习惯 ,最终 推 理 出 目标 用 户 可 能 
经 过 的 敏感 位 置 。 基 于 POL 推荐 系统 ,设计 类 似 的 用 户 地 点 推荐 模型 , 尽 可 能 准确 地 推荐 
用 户 喜 好 的 地 点 ,也 能 够 成 功 地 发 现 用 户 的 下 一 POI, 进 而 威胁 用 户 的 具体 位 置 隐私 C2] 。 

例如 ,假设 当 用 户 在 选择 餐馆 i 吃 晚饭 的 时 候 会 考虑 自己 的 偏好 及 朋友 了 的 意见 。 
因此 ,模型 应 综合 考虑 多 种 因素 ,包括 用 户 对 隐 含 主题 的 个 人 兴趣 分 布 . 地 点 与 主题 的 对 应 
关系 、 用 户 朋友 间 的 影响 力 模 型 。 为 了 确定 用 户 对 各 个 主体 的 偏好 参数 和 不 同 朋 友 的 影响 
力 参 数 ,可 基于 EM 算法 设计 模型 学 习 算 法 。 

初始 模型 包括 以 下 参数 : 

用 户 集合 : U= {wu yz stt ux o 

地 点 集合 : I= {了 ,Ts，,…,Iw}。 

隐 含 主题 集合 : Z—lZ Zen. 

在 这 种 模型 下 ,当主 题 确定 时 ,用 户 与 地 点 i 是 独立 的 。 也 就 是 说 ,主题 z 生成 地 
点 的 概率 以 及 主题 对 应 于 用 户 i 的 概率 互相 独立 。 因 此 ,用 户 wx 和 地 点 i 的 联合 分 布 概 
率 为 


Pr(u.i)— >)Pr(uez+i)= >)Pr(z)Pr(u | =)PrGi | 2) 
:€Z 2€Z 
根据 用 户 的 访问 地 点 历史 数据 = (ui) AA AL a 7e 2J SE aa HR 
Pr(z),Pr(ulz),PrGlz2 EE Pr(u,i)。 因 此 ,根据 算法 可 以 排序 得 到 用 户 u 选择 不 同 地 
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点 i 的 概率 为 PrGlu) = oPr (usi). 初始 模型 如 图 5-25 所 示 。 


Pr(u) -© Pr(ziu) -© Pr(ijz) -© 


图 5-25 初始 模型 





但 此 模型 忽略 了 用 户 朋友 的 影响 力 。 为 此 ,将 模型 改进 为 如 图 5-26 所 示 。 新 增 的 参数 
如 下 : 

u 的 朋友 集合 : FGOCU. 

FAP u 的 朋友 : FE FC), 


Pr(u) x Pr flu) -© Prel f) a Pr(iiz) -© 


图 $-26 ”改进 模型 





为 简单 起 见 ,x 也 被 认为 是 自己 的 朋友 , 即 w€EF(u)。 因 此 ,用 户 、 朋 友 、 主 题 \ 地 点 的 联 

合 分 布 进化 为 
Pr(u,f,z,i)= PrGOPrCf | uw)Pr(z | f)Pr(i | z) 
其 中 ,uz\i 在 f 上 条 件 独立 ,u、f\i 在 > 上 条 件 独立 。 即 : 给 定 S REF KA uzi 的 概 
率 互相 独立 ;给 定 = IARE T BL us fi 的 概率 互相 独立 。 因 此 ,联合 分 布 可 进一步 表示 为 
Pr(u,f,z,i)= Pr(u | f ,zsi)Pr(f,z,i)= Pr(u | f)Pr(f,z,i) 
= Pr(z)Pr(u | f)Pr(f | 2PrG | z) 
因此 ,用 户 x 和 地 点 i 的 联合 分 布 概率 表示 为 
Pr(u,i)= 2j » Pr(z)Pr(u | f)Pr¢(f | z)PrG | z) 


2€Z fe FG) 
同样 可 以 基于 EM 算法 求解 以 上 参数 ,并 得 到 用 户 u 选择 不 同 地 点 i 的 排序 结果 以 做 推荐 。 
但 是 ,以 上 模型 集合 了 协同 过 滤 ,用户 朋 友 的 社交 影响 力 , 并 且 忽 略 了 地 点 的 内 容 。 为 此 ,将 
模型 再 次 改进 为 如 图 5-27 所 示 。 在 此 模型 中 ,主题 x 不 但 生成 了 地 点 i 的 分 布 ,还 生成 了 
地 点 描述 (w) 的 分 布 。 假 设 地 点 i 和 描述 ww 关于 主题 > 互相 独立 。 即 
Pr(u,f,z,i,w)= Pr(z)Pr(u | f)Pr(f | z)PrCi | z)PrGi | z)Pr(w | z) 
进一步 ,用 户 u 和 地 点 i 的 联合 分 布 进化 为 
Pr(wsi)= >) >) 2jPr(z)PrG | <)Pr(f | 2PrG | DPrGeo | 2 


ZEZ f€ Fw we W, 





e) SH O Pr(z| f) 





图 5-27 联合 模型 


到 这 里 ,已 经 完成 了 完整 的 用 户 POI 推荐 模型 。 实 验证 明 这 一 方法 较 好 地 协同 了 多 种 参 
数 ,并 取得 了 超过 其 他 方法 的 推荐 准确 度 。 而 且 . 实 验 还 证 明 , 不 同 数据 集中 朋友 的 影响 力 具 
有 明显 区 别 。 在 实际 推荐 预测 中 ,应 结合 应 用 场景 实际 情况 ,学 习 和 训练 适合 的 影响 力 参数 。 
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Huo 等 人 5 在 隐私 位 置 推 理 的 工作 中 同样 引入 了 推荐 模型 。 在 基于 协同 过 滤 模型 预 
测 用 户 访问 地 点 的 应 用 中 ,为 了 分 析 用 户 相似 性 ,他 们 引入 了 访问 可 能 序列 (visit possibility 
sequence) 的 概念 。 给 定 用 户 访问 序列 s= Us DeL) ,用 户 上 访问 s 的 访问 可 能 序列 是 用 
户 访问 单个 地 点 的 可 能 性 的 集合 PV, 一 {PVi,PVi,… PVE) SEH AY PVi 代表 用 户 访问 
地 点 1; 的 概率 。 基 于 这 一 定义 ,用 户 k 和 用 户 j 的 相似 性 即 可 通过 两 者 访问 可 能 序列 的 余 
弦 距 离 计算 : 
>» PVi PVi 


[PVE |S PVE 
初始 情况 下 ,可 以 得 到 两 个 矩阵 ,分 别 为 用 户 与 用 户 的 相似 矩阵 5、 用 户 访问 地 点 可 能 
的 概率 矩阵 避 。 其 中 ,对 于 任意 用 户 访问 过 的 地 点 ,U 中 对 应 的 该 用 户 访问 该 地 点 的 概率 为 
1 ,否则 为 0。 基于 初始 矩阵 0 和 相似 度 计 算 公 式 , 可 以 计算 得 到 矩阵 S。 在 S 的 基础 上 ,可 
以 更 新 用 户 k 访 问 地 点 7, 的 概率 
Tin = mX M sima. X jan 
JES, 

JEP m = s S ASA a 相似 的 用 户 集合 (sim(,j) > 0), WEU MS 经 过 多 

SM sim, j) 

j€S, 
次 迭代 计算 达到 收敛 io RT DLP LPS k SI n 的 概率 rsw 。 因 此 ,用 户 访问 隐藏 地 点 
L, 的 后 验 概率 可 计算 为 








sim(k,j) 


DCm P (a, < At) 


j€8, 
wiit 
2C 


j€S, 








P(Vi"" | At)= rem X 


6. 其 他 模型 

此 外 ,还 有 一 些 研 究 是 针对 一 组 或 一 类 用 户 进行 建 模 重 识别 ,而 不 是 针对 单一 的 用 户 。 
Ghosh 等 人 5 同时 考虑 了 原始 轨迹 包含 的 时 空 信息 和 语义 信息 ,对 轨迹 聚 类 建 模 , 能 够 识 
别 不 同类 型 的 用 户 ( 主 要 是 四 大 类 : 学 生 教授 .职员 游客) 。Zhang 等 人 [中 对 用 户 进行 分 
组 ,通过 分 组 和 文本 增强 功能 解决 数据 稀 玻 性 问题 ,并 对 同一 组 用 户 建 立 组 级 隐 马 尔 可 夫 的 
移动 规律 模型 。 

在 掌握 了 大 量 目 标 用 户 轨迹 数据 的 基础 上 ,研究 者 证 明 可 以 通过 用 户 轨迹 规律 唯一 地 
识别 出 特定 用 户 。Xiao 等 人 [四 提出 了 SLH (Semantic Location Histories, 语 义 位 置 历史 ) 
的 概念 ,从 用 户 的 移动 轨迹 中 提取 出 POI, 并 将 这 些 POL 打上 语义 标签 (如 全 聚 德 餐厅 ) 。 
用 这 些 带 有 语义 标签 的 POI 构成 用 户 的 SLH 序列 ,通过 计算 SLH 序列 的 相似 度 来 重 识别 
EHP. 


5.5 差分 隐私 


以 上 讨论 的 隐私 保护 机 制 从 各 个 角度 分 别 对 用 户 的 隐私 保护 需求 和 攻击 者 的 能 力 进 行 
了 分 析 , 并 在 一 定 程度 上 解决 了 用 户 隐私 保护 问题 。 但 是 ,正如 5. 1 节 所 讨论 的 那样 ,这 些 
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匿名 方案 对 用 户 的 隐私 保护 需求 和 攻击 者 的 能 力 进行 了 假设 ,其 使 用 范围 大 大 受 限 。 作 为 
一 种 不 限定 攻击 者 能 力 , 且 能 严格 证 明 其 安全 性 的 隐私 保护 框架 ,差分 隐私 保护 技术 受到 了 
人 们 的 广泛 关注 。 

Dwork" 中 在 其 论文 中 分 析 了 用 户 me 认为 安全 的 数据 调查 场景 。 首先 ,单个 用 户 提 交 
的 答案 不 会 对 公开 的 结果 造成 显著 的 影响 , 即 Q(D 一 me) 一 Q(D) ,这 样 攻击 者 就 不 能 通过 
查询 结果 的 变化 推测 me 对 结果 的 贡献 程度 。 其 次 ,要 求 任意 数据 库 访 问 者 不 能 获得 关于 
me 的 额外 信息 , 即 PC(secret(m)1Q(D)) 二 Pl(secret(me))。 这 两 条 严格 的 隐私 保护 要 求实 
际 上 是 无 法 达到 的 。 直 观 上 来 说 ,如 果 QCD— me) 一 Q(D), 那 么 通过 归纳 推理 可 得 知 
Q(D 一 D) 二 Q(D), 也 就 是 说 ,在 数据 集 D 上 的 查询 结果 和 在 空 集 上 的 查询 结果 一 致 。 在 这 
种 情况 下 ,查询 的 结果 QCD) 就 是 无 意义 的 。 而 第 二 条 要 求 也 难以 达到 。 如 果 查 询 结果 表 
明 与 用 户 me 相似 的 人 群 在 某 种 特征 上 具有 很 强 的 倾向 性 ,任何 可 以 获得 查询 结果 的 人 都 
有 理由 推测 ,用户 me 也 很 可 能 具有 这 种 倾向 性 ,很 显然 PCsecret(m) | Q(D)) AP (secret 
(me) ) 。 

在 此 基础 上 ,Dwork 提出 了 一 种 替代 的 安全 目标 , 即 确保 在 数据 集中 插入 或 删除 一 条 
记录 不 会 对 输出 结果 造成 显著 影响 ,形式 化 地 定义 为 

Pr( f(D) = C) 
Pr f (Dime) = C) 

对 函数 三 的 值 域 范围 内 的 任意 输出 结果 C , 相 邻 数据 集 输出 这 一 相同 结果 C 的 概率 比 
值 小 于 e 。 如 果 方 案 能 够 实现 这 一 安全 目标 ,就 能 够 达成 两 种 效果 。 首 先 , 因 为 无 论 攻击 目 
标 是 否 在 查询 数据 集中 ,查询 结果 都 基本 保持 不 变 , 所 以 攻击 者 无 法 根据 查询 结果 确认 攻击 
目标 是 否 在 查询 数据 集中 ,也 就 无 法 实现 链接 攻击 。 其 次 ,这 一 安全 目标 有 效 地 保持 了 数据 
可 用 性 。 无 论 单个 数据 记录 加 入 或 离开 数据 集 D, 对 这 一 数据 集 的 查询 结果 都 基本 保持 稳 
定 , 也 可 以 说 保持 了 数据 中 有 用 的 知识 。 

由 此 可 见 , 在 差分 隐私 模型 中 ,攻击 者 拥有 何 种 背景 知识 对 攻击 结果 无 法 造成 影响 。 即 
使 攻击 者 已 经 掌握 除了 攻击 目标 之 外 的 其 他 所 有 记录 信息 ,仍旧 无 法 获得 该 攻击 目标 的 确 
切 信息 。 对 应 于 差分 隐私 模型 的 安全 目标 ,首先 ,攻击 者 无 法 确认 攻击 目标 在 数据 集中 。 其 
次 ,即使 攻击 者 确认 攻击 目标 在 数据 集中 ,攻击 目标 的 单条 数据 记录 对 输出 结果 的 影响 并 不 
显著 ,攻击 者 无 法 通过 观察 输出 结果 获得 关于 攻击 目标 的 确切 信息 。 

目前 阶段 ,差分 隐私 模型 是 最 为 严格 和 完善 的 隐私 保护 模型 。 在 关系 型 数据 发 布 和 位 
置 轨迹 数据 发 布 中 均 有 许多 基于 差分 隐私 模型 的 保护 方案 。 下 面 首先 介绍 差分 隐私 的 定义 
和 原理 ,然后 对 基于 差分 隐私 模型 的 数据 隐私 保护 方案 进行 分 析 。 


5.5.1 基本 差分 隐私 


1. 差分 隐私 的 定义 
定义 5-33( 差 分 隐私 ) ”给 定数 据 集 D 和 其 相 邻 数据 集 D ,如果 一 个 隐私 算法 /满足 
e- 差 分 隐私 ,那么 对 于 了 的 任意 输出 C, 均 满足 PrCÁ (D) =C)<e'Pr CP (D')2O. 
Hp ERA D 最 多 相差 一 条 记录 的 数据 集 DD' 均 为 D 的 相 邻 数据 集 。e 表示 隐私 保护 
程度 ,对 于 给 定 的 数据 集 和 查询 函数 f, 其 对 应 的 隐私 算法 f e 越 小 ,隐私 保护 程度 越 高 。 


<e, 对 于 | Dim —D|<1 HCE Range(f) 
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2. 基本 原理 

噪声 机 制 是 实现 差分 隐私 的 主要 手段 。 在 Dwork 提出 差分 隐私 模型 时 ,采用 拉 普 拉 斯 
机 制 向 查询 结果 中 添加 噪声 ,使 真实 输出 值 产生 概率 扰动 ,从 而 实现 差分 隐私 保护 。 品 声 分 
布 如 图 5-28 所 示 。 
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E 5-28 拉 普 拉 斯 差分 隐私 机 制 


由 图 5-28 可 以 看 出 ,由 于 拉 普 拉 斯 噪声 服从 概率 分 布 , 在 相 邻 数据 集 上 分 别 进行 相同 
的 查询 ,也 可 能 得 到 相同 的 结果 。 而 且 , 它 们 之 间 的 概率 差异 可 由 公式 严格 计算 得 出 : 


PrCÁ (D) +Lap(b) = y) _ Pr(Lap(5)— y — f'(D)) 
Pr(f (ODDO --Lap() = y) Pr(Lap(5) 2 y — f (DD) 


-Lx- ft) | 
== foo ) 








E 


e (i 
(e 














Ey f (I-l y ra» np) 
« exp[ I 
b 


f(D) f (D p) 
1 home 
< exp (Fmaxd| f (D)— fD p) 


其 中 ,查询 函数 敏感 度 A 太 的 定义 如 下 : 

对 于 任意 一 个 函数 f£: DR? ,函数 f AY Je BUREN A f=maxp,n | f(D)—f(D’)|,D 
和 D HIRR ROGER d 是 函数 输出 的 维度 。 

因此 ,上 述 式 子 可 变 为 


Pr(f’'(D) + Lap) =y z (45) 
Pr (DO + Lap) = y) ^ P| o 


若 要 满足 差分 隐私 模型 ,只 需 定义 拉 普 拉 斯 函数 的 标准 差 5 二 Af /e 即 可 得 到 下 式 : 
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PrCF (D) + Lap(b) = y) 
Pr(f (D + Lap) = y) 


由 拉 普 拉 斯 机 制 和 差分 隐私 原理 可 推导 出 差分 隐私 的 两 个 基本 性 质 : 序列 组 合 性 和 并 
行 组 合 性 。 

定义 5-34( 序 列 组 合 性 ) ”序列 组 合 性 是 指 ,给 定数 据 库 D 5j n 个 差分 隐私 函数 fi. 
fz，…，,f， ,每 个 函数 的 隐私 保护 参数 分 别 为 ei ,es,，…,e,, 对 于 数据 集 D RB AF Ca 
D), fo (DD t fa CD) BEBE X e; 差分 隐私 保护 。 BR Tu 

Pr¢ QD» —C) 一 ee , 必 有 Pr( fi (D) =O) y% Pr f(D) =C) 

Pr f2 (Dime) =C) Pr( fi (Diw) =C)  PrCfo Da.) =C) 

定义 5-35( 并 行 组 合 性 ) ”并 行 组 合 性 是 指 , 给 定 差分 隐私 函数 万 o foe o Fn o BAR 
护 参 数 分 别 为 sl ,ez ,…,e, ,对 于 不 相交 数据 集 Di Do ,… 4D, ,函数 组 合 Ffi (Di), f: D2), 
f CD, ) HE HE max(e;) 差 分 隐私 保护 。 显 然 , 对 于 不 相交 数据 集 的 集合 D, 其 与 相 邻 数据 
集 的 差异 仅 发 生 在 数据 集 D; 中 ,所 以 组 合 差分 隐私 的 效果 受 限于 差分 隐私 参数 最 大 的 数据 
集 ,也 就 是 max(e;)。 

基于 这 两 种 性 质 可 以 很 容易 地 进行 差分 隐私 方案 的 设计 和 隐私 性 证 明 。 


3. 其 他 机 制 

拉 普 拉 斯 机 制 对 数值 型 查询 能 够 提供 相应 的 保护 ,但 无 法 对 输出 为 实体 结果 的 查询 进 
行 扰动 。 例 如 ,需要 输出 机 器 学 习 算法 的 适宜 模型 或 分 类 器 ,需要 选择 合适 的 网 络 路 由 机 
制 。 指 数 机 制 设计 通过 打分 算法 向 用 户 输出 满足 一 定 概率 分 布 的 查询 结果 , 既 保 证 了 数据 
的 扰动 ,同时 在 一 定 程 度 上 保持 了 数据 的 可 用 性 5 。 

指数 机 制 中 的 打分 函数 g(D,r) 一 R 又 被 称 为 可 用 性 函数 ,用 来 评价 查询 q 的 输出 结果 


"的 可 用 性 。Ag 为 打分 函数 的 敏感 性 。 如 果 该 查询 函数 以 正比 于 exp (8105 ] 的 概率 


从 值 域 范 围 内 选择 输出 ,那么 该 查询 函数 能 够 提供 = 差分 隐私 保护 。 

例如 ,选择 机 器 学 习 分 类 器 ,SVM(Support Vector Machine, 支 持 向 量 机 ) 分 类 器 的 可 
用 性 为 30, 决 策 树 分 类 器 的 可 用 性 为 15 ,朴素 贝 叶 斯 分 类 器 的 可 用 性 为 25。 在 Aq—1.6—0.1 
的 条 件 下 ,SVM 分 类 器 被 选择 的 概率 为 exp(3/2)/(exp(3/2) 十 exp(2. 5/2) 十 exp(1. 5/ 
2)) ,决策 树 分 类 器 被 选择 的 概率 为 exp(1. 5/2)/(exp(3/2) 十 exp(2. 5/2) 十 exp(1. 5/2)), 
朴素 贝 叶 斯 分 类 器 被 选择 的 概率 为 exp(2. 5/2)/(exp(3/2) +exp(2. 5/2) 十 exp(1.5/2) ) 。 


4. 基于 基本 差分 隐私 模型 的 研究 

拉 普 拉 斯 机 制 通过 将 符合 要 求 的 拉 普 拉 斯 噪声 添加 到 每 个 查询 结果 中 ,实现 满足 交互 
式 查询 的 e- 差 分 隐私 保护 。 但 是 , 随 着 查询 次 数 的 增加 ,必然 会 导致 拉 普 拉 斯 噪声 分 布 机 制 
暴露 ,从 而 泄露 查询 的 真实 值 。 而 且 , 单 纯 依 靠 独立 的 拉 普 拉 斯 噪声 提供 隐私 保护 ,可 能 会 
给 整体 数据 造成 较 大 的 噪声 。 例 如 ,如果 单 独 为 图 5-29(a) 中 的 每 个 频数 加 入 噪声 X, 
噪声 为 7X。 在 图 5-29(b) 中 ,数据 合并 为 3 个 分 区 (partition) ,每 个 分 区 的 频数 为 该 分 区 中 
各 频数 的 平均 值 ,然后 为 新 的 分 区 频数 加 入 噪声 ,总 噪声 减 小 为 3X。 后 续 的 差分 隐私 模型 
主要 从 两 方面 人 手 来 解决 这 一 问题 。 第 一 ,试图 提高 参数 es 的 可 用 性 ,希望 以 较 小 的 。 支持 
更 多 次 查询 ,延迟 用 户 获得 真实 数据 。 第 二 ,通过 直接 发 布 满足 差分 隐私 模型 的 扰动 数据 的 





< exp(e) 


«e, 


<ete, 











2 
第 5 章 隐私 保护 技术 228 


方式 ,使 得 用 户 无 法 获得 真实 数据 。 
年 龄 分 布 年 龄 分 布 











人 数 
人 数 
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(a) 原始 直方 图 O 分 区 直方 图 


图 5-29 直方 图 方法 


在 交互 式 查询 方面 ,Roth 等 人 5 提出 了 中 位 数 机 制 , 可 以 在 s 相同 的 情况 下 支持 更 多 
轮 数 的 安全 查询 。Hardt 等 人 [ 吧 提 出 了 基于 数据 直方 图 的 交互 式 查 询 方案 。 该 方案 把 数 
据 集 的 分 布 视 为 一 个 直方 图 ,为 每 次 查询 结果 添加 拉 普 拉 斯 噪声 ,并 与 该 查询 的 上 一 个 输出 
结果 比较 。 如 果 两 者 的 差异 小 于 预先 设 定 的 阔 值 ,那么 用 上 一 次 查询 结果 替代 这 一 次 的 计 
算 结果 ;只 有 当 差 异 程度 大 于 一 定 的 阀 值 时 , 才 发 布 新 的 计算 结果 。 显 然 ,每 次 发 布 旧 的 计 
算 结果 不 影响 隐私 保护 效果 ,也 不 会 泄露 关于 拉 普 拉 斯 机 制 的 更 多 信息 。 因 此 ,这 一 机 制 能 
够 支持 更 多 的 安全 查询 。 在 此 基础 上 ,Xiao AF Xu HAC Sp Hl Se ik HR A OE A ET 
方 图 划分 方法 ,并 给 出 了 不 同 的 方案 。 

Xiao 等 人 中 提出 了 一 种 基于 Ad 树 的 直方 图 发 布 算法 。 算 法 对 数据 集 进 行 了 两 阶段 
的 划分 。 第 一 阶段 ,为 数据 集 产生 原始 直方 图 ,并 以 s/2 为 隐私 保护 参数 向 直方 图 加 入 拉 普 
拉 斯 噪声 ,从 而 得 到 新 的 数据 分 布 和 频数 。 第 二 阶段 ,以 添加 了 噪声 的 直方 图 做 为 输入 , 采 
用 kd 树 划 分 算法 对 其 进行 划分 。 在 这 一 步骤 中 ,直方 图 中 的 每 一 项 都 被 作为 维 空间 的 
数据 点 ,其 值 即 为 该 项 的 频数 。 在 每 一 次 划分 中 ,计算 当前 分 区 中 的 数据 点 频数 和 ,如 果 超 
过 预先 设 定 的 阔 值 ,那么 就 根据 kd 树 算法 将 其 划分 为 新 的 子 区 ,否则 不 划分 。 以 新 生成 的 
直方 图 划分 方案 为 数据 输入 ,再 向 新 的 划分 项 中 分 别 加 入 以 e/2 为 隐私 保护 参数 的 拉 普 拉 
斯 噪声 。 这 种 直方 图 划分 方法 考虑 了 数据 分 布 的 紧密 程度 ,能 够 以 较 少 的 噪声 提供 同等 的 
隐私 保护 能 力 。 随 后 ,Xiao 等 人 中 将 这 一 工作 作为 DPCube 模块 融入 多 维 健康 数据 发 布 框 
架 中 ,将 用 户 的 多 维 健康 数据 以 直方 图 的 形式 发 布 ,并 能 够 同时 对 结构 化 数据 和 非 结 构 化 数 
据 提 供 隐私 保护 。DPCube 中 提供 了 差分 隐私 保护 的 数据 访问 机 制 ,还 提供 了 两 阶段 多 维 
分 割 技 术 进 行 隐 私 保护 的 数据 发 布 。 

在 非 交互 式 查询 方面 :也 出 现 了 查询 变换 方法 、 分 组 发 布 等 典型 方法 。 例 如 , Xiao 等 
人 5 针对 范围 计数 查询 提出 了 小 波 变换 方法 ,Hay 等 人 提出 了 层次 查询 法 "9 。 

Xiao 等 人 在 数据 添加 噪声 之 前 先进 行 小 波 变换 ,能 够 以 较 小 的 噪声 代价 实现 同等 的 隐 
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私 保护 性 能 。 例 如 ,原始 数据 表 和 频 度 统计 表 分 别 如 图 5-30 所 示 。 
















































































年 龄 超重 
22 否 
18 是 
25 否 年 龄 未 超重 超重 
32 F <25 1 1 
26 否 25-35 4 0 
33 8 35-45 1 2 
38 是 >45 0 1 
a z O 频 度 统计 表 
44 "ü 
52 是 
(a) 原始 数据 表 


图 5-30 原始 数据 表 与 频 度 统计 表 


在 Dwork 等 人 的 工作 中 ,在 图 5-30(b) 中 每 一 行 的 输出 结果 中 添加 拉 普 拉 斯 噪声 即 可 
实现 差分 隐私 保护 。 但 如 果 是 对 于 需要 聚集 图 5-30(b) 中 连续 多 行 的 查询 ,用 户 得 到 的 数 
据 可 用 性 可 能 会 受到 影响 。 如 果 每 一 行 的 输出 需要 增加 0(1) 的 噪声 ,对 于 聚集 查询 ,可 能 
会 增加 90(m) 的 噪声 ,其 中 m 为 聚集 查询 涉及 的 行 数 。 为 此 ,Xiao 等 人 提出 小 波 变换 机 制 ， 
在 满足 e 差 分 隐私 的 基础 上 ,提高 聚集 查询 的 数据 可 用 性 。 小 波 变换 机 制 保证 了 任意 聚集 
查询 的 噪声 量 是 0(log(m)), 比 Dwork 等 人 的 工作 有 较 大 进步 。 

小 波 变换 机 制 将 关系 数据 表 T 作为 输入 ,隐私 保护 参数 为 ,输出 表 T 的 频率 矩阵 M 
的 变形 M * 。 其 工作 流程 分 为 3 步 : 

CD 对 数据 频率 统计 和 矩阵 M 进行 小 波 变换 。 小 波 变换 是 一 种 可 道 的 线性 函数 ,将 矩阵 
M 变换 为 矩阵 C ,使 得 C 中 的 每 一 个 元 素 都 可 以 由 M 中 的 元 素 计算 得 出 ,并 且 M 能 够 从 C 
中 恢复 。C 中 的 元 素 称 为 小 波 系数 (wavelet coefficient) 。 通 常 小 波 变 换 只 适用 于 定 序数 据 
Cordinal data) ,为 此 需要 对 定量 数据 (nominal data) JETP JE. 

(2) 对 小 波 系数 添加 独立 的 拉 普 拉 斯 噪声 ,从 而 保护 差分 隐私 。 这 一 步骤 会 得 到 新 的 
矩阵 Cx 。 

(3) 依据 Cx 生成 Mx ,从 而 得 到 添加 了 噪声 的 M 矩阵。 小 波 变换 机 制 提供 的 隐私 保 
护 能 力 依赖 于 第 (2) 步 中 的 噪声 添加 。C 中 的 元 素 为 M 中 元 素 的 线性 组 合 ,只 要 对 C 中 元 
素 增加 经 过 组 合 的 适量 噪声 ,也 能 够 在 M* 中 获得 合适 的 噪声 。 一 般 地 ,C 中 每 个 元 素 需 要 添 
加 的 噪声 都 不 相同 。 小 波 变换 通过 加 权 函 数 W 确定 C 中 每 个 元 素 c 的 噪声 ,通常 为 A/W(c)。 

Xiao 等 人 定义 了 泛 化 敏感 度 的 概念 。 令 下 为 一 组 函数 的 集合 ,其 中 每 个 函数 以 矩阵 为 
输入 ,输出 一 个 实数 。W 为 下 中 的 每 个 函数 了 分 配 一 个 权重 。F 的 泛 化 敏感 度 定义 为 满足 


以 下 条 件 的 最 小 实数 p: >) WC 有) FUM)— FCM’) D <p|| M—M' 111. 其 中 ,M 和 M 为 
SEF 
相差 仅 一 个 元 素 的 两 个 矩阵 .| | M 一 M' ||, = >) |w|, 是 两 个 矩阵 的 L1 距离 。 在 此 基 


v€ M-M 
础 上 , 令 G 为 一 个 随机 算法 ,以 数据 表 T 为 输入 ,输出 一 组 实数 集合 {FCM) 9C D | FEF}, 
M 为 的 频数 矩阵 。w( 放 是 拉 普 拉 斯 分 布 一 (0,4/W (了 f)) 产 生 的 随机 噪声 。 可 以 证 明 G 
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WE (20/20 -差分 隐私 。 
AT, AT, 为 相 邻 数据 表 , 两 者 仅 差 一 条 记录 。M 和 M; 分 别 为 Ts 和 T 的 频数 矩 
阵 。 令 T,- T. YT; ,Ms 是 T; 的 频数 矩阵 。 显 然 ,MA， 和 Ms 仅 差 一 个 元 素 ,M。 AM, 也 仅 
差 一 个 元 素 。 下 函数 的 泛 化 敏感 度 为 p, 且 对 应 的 加 权 函 数 为 W ,那么 有 
210v on! fX )- FM) D <p || M 一 Ms |l- 
类 似 地 ,有 
DWA FM) FOG) D <p || M; — M; Lli-e 


JEF 
4 fi(iE[1,|F|]) 为 F 中 的 第 i 个 函数 ,zx; 为 任意 实数 ,存在 
Pr{G(Tz ) — — istes zje] >} 
Pr{G(Ti )=< xiizimr|pgp >} 
FT etd (wh) Le: — fi (M) | 
U[ ep a )] 
IFI 


In oe dexp(= w(fi) |n — £M.) | J] 


IF| 


< TT exo [42 Lf QM.) f M) cj 
i=l 























IF| r 
< Teje |f (Mi )— f: (Ms) [+ wf) |f: (Ms )— f:(M:)| ] 
i=l 


< e’ 

由 此 可 见 , 小 波 变换 的 方法 也 能 提供 基于 拉 普 拉 斯 机 制 的 差分 隐私 保护 。 

早期 的 数据 分 组 方法 对 成 熟 的 匿名 模型 进行 了 差分 隐私 保护 的 增强 研究 ,例如 -匿名 
模型 -多 样 化 模型 等 。Li 等 人 中 提出 了 “安全 -匿名 ”模型 ,该 方法 通过 数据 抽样 选取 初 
始 数据 集 ,并 从 该 数据 集中 删除 频数 小 于 & 的 记录 ,使 得 每 组 数据 都 至 少 出 现 k 次 。 同 时 ， 
要 求 抽样 方法 满足 差分 隐私 保护 要 求 , 因 此 该 方法 得 到 的 数据 集 也 同时 满足 差分 隐私 保护 
要 求 。 但 是 ,Li 等 人 并 未 给 出 此 模型 的 实现 方法 ,其 中 的 数据 损失 也 需 进一步 讨论 。 

5. 差分 隐私 的 数据 挖掘 技术 

随 着 大 数据 技术 的 广泛 应 用 ,数据 金 矿 的 价值 越 来 越 受到 追捧 。 相 对 地 ,数据 隐私 保护 
不 可 避免 地 给 发 布 的 匿名 数据 造成 可 用 性 损失 ,这 是 数据 挖掘 者 不 愿意 看 到 的 。 为 此 ,研究 
者 提出 了 差分 隐私 的 数据 挖掘 技术 的 思想 ,通过 差分 隐私 技术 保护 个 人 用 户 的 隐私 ,同时 保 
持 数据 挖掘 结果 的 可 用 性 。 以 下 简要 介绍 几 个 满足 差分 隐私 的 数据 挖掘 算法 。 

频繁 模式 挖掘 能 够 帮助 我 们 了 解数 据 集中 存在 的 有 趣 的 关联 ,但 频繁 模式 本 身 的 内 容 
和 频率 都 有 可 能 泄露 用 户 隐私 信息 。Bhaskar 等 人 5 提出 了 一 种 满足 差分 隐私 的 top- 频 
繁 模式 挖掘 算法 。 该 方法 与 传统 挖掘 算法 的 主要 不 同 之 处 是 在 挑选 频繁 项 集 的 过 程 中 引入 
了 指数 机 制 。 通 过 指数 机 制 和 截断 频率 (truncated frequency) HA. sk p 被 选中 成 为 
top-k 个 频繁 模式 的 概率 Pr(p) 满 足 Pr(p)ocexp(enf'(p)/4k), 其 中 (pp) 为 模式 p 的 截 
断 频 率 。 该 方法 还 将 挖掘 得 到 的 & 个 模式 的 频率 添加 拉 普 拉 斯 噪声 ,从 而 保护 了 模式 的 频 
率 信 息 。 此 外 ,文献 [97] 发 现 了 事务 记录 较 长 导致 查询 敏感 性 较 高 的 缺陷 ,提出 了 一 种 事务 
截断 技术 。 该 方法 通过 阔 值 和 动态 权重 频率 截断 长 记录 ,降低 了 查询 敏感 性 ,提高 了 模式 的 


6 
k 大 数据 安全 与 隐私 保护 








可 用 性 。 

决策 树 是 一 种 典型 的 数据 分 类 方法 。Mohammed 等 人 中 9 提出 了 一 种 满足 差分 隐私 保 
护 要 求 的 决策 树 分 析 算 法 。 该 算法 先 将 数据 集 泛 化 形成 若干 等 价 类 ,然后 基于 差分 隐私 保 
护 的 指数 机 制 在 选取 分 割 点 时 打分 ,迭代 分 制 生成 决策 树 。 决 策 树 分 制 打分 时 考虑 了 信息 
增益 以 及 等 价 类 的 频率 ,从 而 兼顾 了 决策 树 划分 的 正确 性 和 差分 隐私 保护 的 需求 。 

聚 类 同样 是 数据 分 析 的 主要 技术 。 文 献 [99] 中 提出 了 一 种 满足 差分 隐私 的 & 均值 聚 簇 
中 心 发 布 方法 ,优化 了 聚 类 敏感 性 的 度量 方法 ,使 得 差分 隐私 保护 输出 的 节点 位 置 对 数据 变 
化 不 敏感 。 文 献 L[100] 提 出 了 两 种 噪 优化 的 噪声 添加 方法 : 在 迭代 次 数 确定 的 情况 下 ， 
每 一 轮 添加 的 噪声 应 符合 分 布 Lap((d 十 1)n/e); @ 在 迭代 次 数 不 确定 的 情况 下 ,每 次 所 分 
配 的 隐私 预算 为 上 次 剩余 预算 的 一 半 。 

支持 向 量 机 方法 也 可 以 被 改进 以 适应 差分 隐私 保护 的 需求 。Smith5? 提出 了 一 种 添 
加 拉 普 拉 斯 噪声 扰动 法 向 量 的 支持 向 量 机 分 类 方法 一 一 PrivateSVM。Jingn 中 提出 了 一 种 
对 目标 函数 加 噪声 的 分 类 方法 一 一 ObjectiveSVM。 这 两 种 方法 在 分 类 精度 和 适用 范围 上 
存在 一 定 不 足 , 仍 存在 改进 空间 。 


5.5.2 本 地 差分 隐私 


早期 差分 隐私 的 应 用 场景 属于 集中 式 模型 ,所 有 用 户 数据 聚集 之 后 应 用 保护 算法 ,处理 
后 再 安全 发 布 。 该 模式 下 存在 一 个 可 信任 的 数据 管理 员 , 具 有 访问 原始 隐私 数据 的 权利 。 
然而 ,在 现实 情况 中 ,用 户 其 实 更 希望 能 够 自己 保护 自己 的 隐私 ,不 相信 除了 自己 以 外 的 任 
何人 。 这 种 情形 促使 了 本 地 差分 隐私 (Local Differential Privacy,LDP) 的 产生 。 在 LDP fi 
式 下 ,无 论 单个 用 户 的 数据 如 何 变化 ,数据 收集 者 采集 所 有 用 户 数据 都 能 学 习 到 几乎 同样 的 
知识 。 换 句 话说 ,拥有 任意 背景 知识 的 攻击 者 看 到 被 LDP 扰动 后 的 单个 用 户 数据 后 ,不 能 
准确 推测 用 户 的 原始 数据 。 

本 地 差分 隐私 的 思想 最 早 是 由 Kasiviswanathan 等 人 0 中 在 2008 年 提出 的 。 其 主要 目 
的 是 使 数据 保护 的 过 程 直接 在 用 户 本 地 进行 ,服务 器 无 法 获得 真实 隐私 数据 。 在 此 之 前 , 统 
计 机 构 和 医疗 研究 机 构 尝试 了 多 种 隐私 保护 方案 ,希望 在 学 习 和 发 布 整体 分 析 结 果 的 同时 
使 每 个 数据 提供 者 泄露 的 数据 在 可 接受 范围 内 。 但 是 这 些 方案 普遍 缺乏 对 泄露 数据 的 可 用 
性 和 隐私 的 定量 分 析 。 直 到 2008 年 的 IEEE FOCS 会 议 ,Kasiviswanathan 等 人 提出 了 本 
地 差分 隐私 模型 ,通过 差分 隐私 这 种 严格 的 约束 条 件 ,衡量 隐私 保护 程度 和 数据 可 用 性 的 联 
系 。 他 们 也 指出 ,实现 本 地 差分 隐私 的 本 地 算法 (包括 randomized response. input 
perturbation. Post Randomization Method(PRAM)) 和 已 有 的 统计 查询 (statistical query) 
算法 9 中 等 价 , 证 明了 数据 采集 者 在 干扰 数据 上 的 统计 结果 所 能 保持 的 可 用 性 。 

然而 ,本 地 差分 隐私 需要 大 量 的 数据 才能 保持 其 准确 性 ,因此 在 随后 的 一 段 时 间 发 展 比 
较 缓 慢 。 直 到 2014 年 Google 的 Erlingsson A IFT Google 的 LDP 应 用 Rappor. 
将 其 应 用 在 Chrome 浏览 器 中 收集 用 户 隐私 数据 ,使 LDP 又 重新 活跃 在 学 术 圈 中 。2015 
年 ,Bassily 等 人 P% X STOC 上 公开 了 一 个 利用 LDP 挖掘 热门 选项 (heavy hitter) 的 协 
议 SH。 自 此 ,Rappor 和 SH 成 为 LDP 应 用 领域 的 两 个 重要 基石 ,是 后 续 深 入 研究 的 基础 。 
在 2016 年 CCS 会 议 上 ,Qin 等 人 中 提出 可 以 结合 SH 和 Rappor 各 自 的 优点 ,同时 使 用 这 
两 个 协议 在 集合 数据 (set-valued data) 中 更 准确 地 挖掘 热门 选项 。 在 2016 年 ICDE AN 
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上 ,Chen 等 人 中 提出 基于 SH 协议 搜集 用 户 当 前 位 置 数据 的 方法 。 


1. 基本 定义 与 概念 

本 地 差分 隐私 的 含义 是 ,用 户 所 有 可 能 的 输入 经 随机 化 算法 处 理 后 ,其 输出 值 之 间 的 概 
率 差异 都 小 于 某 个 预 设 的 隐私 阅 值 。 下 面 给 出 形式 化 的 定义 。 

定义 5-36( 本 地 差分 隐私 ) 一 个 随机 化 算法 A He LDP 的 条 件 是 ,在 一 个 空间 域 
中 ,对 于 任意 的 一 对 数据 1,/' EZ 和 任意 输出 OE Range(A), 都 存在 下 列 关系 : 

Pr[ AC) € O] < exp(e) * PrLAGD € O] 

535 4) Ee A 3S (DL LU € Z p RE — 1 FH P1 — AR CR LR Ln] PURIS AR AB 
数据 库 。 

本 地 差分 隐私 算法 的 核心 是 随机 化 算法 。 而 通过 随机 化 处 理 实现 用 户 隐 私 保护 的 理念 
可 以 回溯 到 早期 经 典 的 随机 回答 (Random Response,RR) 协 议 。 这 是 最 早 用 于 社会 调查 中 
的 隐私 保护 方案 ,通常 在 调查 问题 涉及 用 户 隐 私 的 敏感 问题 ,如 个 人 信仰 .严重 疾病 等 时 使 
用 。 该 协议 内 容 如 下 : 

CD 调查 问卷 中 询问 用 户 是 否 具 有 某 属性 ES FE DA: “ERAT. 

(2) 此 时 用 户 随机 扔 一 个 硬币 。 如 果 朝 上 ,那么 选择 如 实 回答 问题 ;如 果 朝 下 ,那么 选 
择 随 机 回答 问题 。 随 机 回答 可 以 理解 为 用 户 可 以 再 扔 一 次 硬币 ,正面 朝 上 时 回答 “是 ”, 朝 下 
时 回答 “ 否 ”。 

上 述 协 议 实质 上 等 价 于 用 户 以 75% 的 概率 回答 正确 值 ,以 25% 的 概率 回答 错误 值 。 该 
协议 可 以 更 抽象 地 表达 为 ,协议 参与 方 预先 约定 一 个 自 定义 概率 AOSE) ,用 户 对 拟 提 
交 的 一 个 比特 信息 5 进行 随机 化 ,以 f/2 的 概率 变 为 1,f/2 的 概率 变 为 0, 以 1 一 了 的 概率 
保持 不 变 , 得 到 4 的 随机 化 后 的 结果 4 。 如 果 每 个 用 户 按照 上 述 协议 执行 ,那么 采集 者 通过 
对 统计 结果 的 修正 ,可 以 得 到 调查 用 户 种 具有 某 种 隐私 属性 的 比例 。 同 时 RR 协议 提供 强 
隐私 保护 机 制 , 用 户 的 结果 并 不 能 作为 对 他 们 意见 或 属性 的 推断 。 

与 之 类 似 ,在 本 地 差分 隐私 中 经 常 考虑 的 是 热门 选项 问题 。 厂 商 希望 了 解 大 多 数 用 户 
普遍 关心 的 选项 ,同时 保护 每 个 用 户 的 个 人 隐私 。 每 个 用 户 从 大 量 候 选集 (category seo 中 
选 出 自己 的 喜好 并 提交 ,厂商 从 中 找 出 热门 选项 。 此 时 答案 不 是 二 选 一 ,而 是 N 选 一 。 此 
时 ,一 种 通俗 的 做 法 是 ,用 户 可 以 对 每 一 个 选项 分 别 应 用 RR 协议 进行 随机 化 ,将 最 终 的 答 
案 作 为 二 进 制 数组 发 送 给 采集 者 。 这 种 做 法 存在 的 最 大 问题 是 , 当 候 选集 很 大 时 ,每 个 用 户 
所 需要 返回 的 数据 量 巨大 , 且 存 在 较 大 的 统计 误差 。 因 此 ,研究 者 提出 了 一 系列 协议 试图 解 
决 该 问题 ,并 提高 分 析 结 果 的 准确 度 。 比 较 经 典 的 包括 Rappor 协议 与 SH 协议 。 


2. Rappor 协议 

Rappor 协议 是 一 种 基于 RR 协议 的 用 户 选 项 采集 统计 方法 ,提供 强 隐私 保护 机 制 。 基 
本 协议 包括 两 部 分 : 一 部 分 是 发 生 在 用 户 终端 的 本 地 数据 随机 化 操作 , 另 一 部 分 是 数据 采 
集 者 对 采集 到 的 噪声 数据 的 分 析 处 理 。 

用 户 终端 的 本 地 随机 化 操作 应 用 了 两 轮 RR 协议 ,第 二 次 随机 化 可 以 防止 反复 查询 导 
致 的 用 户 隐 私 泄露 。 其 基本 内 容 如 下 (图 5-31) : 

CD 假设 要 求 用 户 上 传 一 个 网 站 的 具体 网 址 的 字符 串 s, 用 户 将 存放 到 一 个 公共 的 布 隆 
过 滤器 (Bloom filter) 中 ( 布 隆 过 滤器 的 长 度 为 ,hash 函数 的 个 数 为 h) ,得 到 定 长 序列 B。 
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真实 数据 : 数字 68 


布 隆 过 滤器 (8) 0100000000000000000000000000000000000001 





干扰 一 次 的 布 隆 过 滤器 (8”) 1101000000100100010100000000000011100001 
干扰 两 次 的 布 隆 过 滤器 (8”) 0101011010101011010011111001010010101000 
0 20 40 

布 隆 过 滤器 的 位 


Æ 5-31 Rappor 协议 两 次 随机 化 过 程 示例 


(2) 先 通过 差分 隐私 参数 反 向 计算 概率 (0 二 f 二 1, 计 算 见 后 文 ) ,使 用 RR 协议 对 B 
中 的 每 一 位 进行 随机 化 ,每 一 位 以 f/2 的 概率 变 为 1, 以 f/2 的 概率 变 为 0, 以 1 一 了 的 概率 
保持 不 变 , 得 到 B 的 随机 化 结果 B'。 此 时 ,如 果 不 考 虑 反复 查询 攻击 ,用 户 可 以 直接 上 传 
了 ,忽略 第 (3) 步 。 

(3) 为 了 防止 恶意 攻击 者 反复 查询 的 行为 ,可 以 对 B' 再 使 用 一 次 RR 协议 进行 随机 化 ， 
设置 概率 pig. “4 B;—1 时 ,以 gq 的 概率 随机 化 产生 B=1, 当 B; —0 时 ,以 p 的 概率 随机 化 
产生 BY 二 1。 最 终 得 到 一 串 二 进 制 字符 S= B ,将 S 上传 给 服务 器 。 

该 协议 在 第 一 步 中 通过 引入 布 隆 过 滤器 数据 结构 ,将 海量 的 候选 项 转化 为 长 度 固定 的 
二 进 制 数 组 。 而 且 由 于 hash 函数 的 个 数 已 知 ( 设 为 由), 所 以 数组 中 *1” 的 个 数 已 知 ( 小 于 或 
SEF h) ,任意 两 个 输出 数组 之 间 的 距离 最 大 为 2h. 

假设 不 考虑 固化 存储 (memorization) se 的 取 值 和 有 (hash 函数 个 数 )、f( 随 机 回答 的 概 
率 ) 有 关 。 


可 以 知道 ,第 一 层 的 随机 化 操作 满足 。-DP,e==24 In HE, 


对 于 用 户 刚 存 人 布 隆 过 滤器 的 真实 数据 ,B; 二 1, 最 终 两 次 随机 化 操作 后 的 S;=1 的 概 
率 为 








q' = P(S;=1|B,=D fg) - Da 


同 理 











p* = P(S; =1| B; =0) LfQ-p-0-pp 





两 层 随机 化 操作 之 后 满足 s -DP ,ei 一 a= a= 二. 下 标 1 表示 第 一 次 上 传 数据 。 


数据 采集 者 收集 所 有 用 户 上 交 的 数组 后 ,对 其 进行 统计 务 析 。 假设 服务 器 收集 到 N 
个 用 户 提交 的 数据 ,将 数据 累计 后 ,第 i 位 的 计数 为 c;, 通 过 概率 统计 将 c; 修正 为 1;。 
& — (p+fa/2— fp/2)N 
0— DG- p 
修正 后 的 各 位 t 依次 排列 组 成 最 终 M. 维 向 量 Y, 设 计 &XM 的 单位 矩阵 和 X,M 是 类 别 
候选 项 的 数目 ,单位 矩阵 的 每 一 行 都 是 一 个 候选 项 的 布 隆 过 滤器 的 表示 。 可 以 看 出 X 是 一 
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个 稀疏 和 矩阵 ,每 一 行 都 只 有 个 位 的 结果 为 1。 利 用 Lasso 回归 可 以 拟 合 Y 一 X 这 个 模型 得 
到 相应 的 系数 ,此 系数 就 是 候选 项 的 估计 频数 。 由 于 候选 项 集合 规模 很 大 ,采用 LASSO 回 
归 , 仅 重点 计算 热门 选项 所 占 比 例 。 对 于 其 他 大 多 数 非 热门 选项 , 因 其 所 占 比 例 小 ,对 结果 向 
量 的 贡献 与 影响 较 小 ,所 以 将 其 比例 系数 设置 为 0, 不 影响 结果 准确 性 ,同时 让 结果 尽快 收敛 。 

Rappor 协议 中 的 一 个 重要 技巧 是 考虑 了 采集 者 多 次 重复 采集 引发 的 纵向 攻击 。 因 为 
用 户 通常 依赖 概率 算法 掩盖 真实 意图 ,而 当 多 次 重复 实验 时 ,经 过 结果 统计 分 析 , 用 户 的 真 
实 答案 基本 上 暴露 无 遗 。 所 以 ,为 了 保护 隐私 内 容 , 用 户 应 该 选择 拒绝 回答 。 或 者 ,采用 本 
协议 中 提供 的 方法 ,将 第 一 次 随机 化 后 的 结果 固化 存储 ,而 在 该 结果 的 基础 上 二 次 随机 化 。 
这 样 ,即使 攻击 者 对 多 次 输出 进行 统计 分 析 , 得 到 的 也 是 第 一 次 随机 化 后 的 结果 ,并 不 是 用 
户 的 真实 意图 。 

Rappor 协议 本 质 是 对 所 有 候选 项 使 用 了 两 次 随机 应 答 ,然后 服务 器 根据 随机 应 答 的 预 
设 概率 对 统计 结果 进行 修正 ,从 而 得 到 较为 准确 的 热门 选项 结果 。 它 的 贡献 在 于 成 功 地 在 
大 数据 应 用 层次 上 实现 了 LDP, 能 够 利用 hash 函数 的 方法 将 任意 字符 串 映 射 到 有 限 空间 ， 
然后 服务 器 通过 解析 分 析出 热门 选项 。 两 次 随机 应 答 可 以 预防 用 户 因 多 次 上 传 数据 而 产生 
的 隐私 泄露 问题 。 它 的 缺点 也 很 明显 ,要 求 服务 器 提前 知道 所 有 热门 选项 的 候选 项 ,用 户 端 
提交 的 数据 量 过 多 。 

3. SH 协议 

SH 协议 是 另 一 个 典型 的 热门 选项 挖掘 和 频率 估计 的 协议 。 与 Rappor 协议 中 的 随机 
化 处 理 算法 有 所 不 同 ,SH 协议 中 的 随机 化 处 理 采用 了 一 种 非 对 称 的 方式 。 当 用 户 赞成 某 
候选 项 时 ,采用 类 似 RR 协议 的 方法 对 输出 结果 处 理 ;而 当 用 户 不 支持 该 候选 项 时 ,以 50% 
的 概率 随机 返回 结果 给 服务 器 。SH 协议 其 实 分 为 好 几 个 版 本 ,主要 包括 SH 基础 协议 以 
及 延伸 的 1 比特 协议 。 其 中 SH 基础 协议 反映 了 其 随机 化 算法 的 核心 思想 ,下 面 予以 重点 
介绍 。 

SH 基础 协议 中 的 随机 化 算法 解决 的 主要 问题 是 ,用 户 对 个 候选 项 (vw,vs，*… ,vi,…， 
v,}) 中 的 某 个 候选 项 v; 投票 。 不 像 Rappor 那样 对 所 有 的 位 进行 随机 应 答 , 用 户 只 对 自己 所 
选 的 候选 项 进行 随机 应 答 ,对 其 他 候选 项 以 50% 的 概率 随机 支持 。 服 务 商 接 收 到 用 户 返 回 
的 n 位 数据 时 ,并 不 知道 用 户 选择 的 是 哪个 候选 项 。 服 务 商 需要 根据 投票 结果 确定 该 候选 
项 ,同时 正确 估计 出 选择 该 候选 项 的 用 户 比例 。 

SH 基础 协议 的 随机 化 算法 (不 考虑 压缩 编码 ) 主 要 过 程 如 下 : 


输入 依据 定理 5 -3( 见 后 文 ) 生 成 候选 项 数目 ) 个 ,位 编码 (se | 一 A] v). 


vm m 
以 及 隐私 参数 s。 
(1) 每 个 用 户 首先 根据 自己 支持 的 候选 项 从 个头 位 编码 中 选择 对 应 该 候选 项 的 编 
码 , 在 mm 位 中 以 均匀 概率 选取 一 位 x;( 索 引 为 D. 
(2) 用 户 以 ee/(1 十 e) 的 概率 返回 zj; ,以 1/(1 十 ee) 的 概率 返回 一 xj, 返 回 结 果 可 表 
示 为 
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其 中 c 是 放大 系数 , 取 值 为 .一 全 二 1 


(3) 对 于 用 户 不 支持 的 那些 候选 项 , 即 zx 一 0, 以 1/2 的 概率 随机 返回 结果 。 可 表示 为 
zi {ee Vm, — ce Vm} 
(4) 返回 向 量 z IRS AE zp (zr za E {ce Vm ,一 ce。 Vm) ,其 中 的 
j 是 步骤 (1) 中 澡 位 编码 的 第 j 位 编码 。 
服务 器 收 到 所 有 用 户 返回 的 结果 后 ,可 以 通过 计算 恢复 出 该 候选 项 。 具 体 步 骤 如 下 : 
(1) 针对 每 个 候选 项 ,如 第 i 项 ,从 所 有 用 户 的 xz; 中 挑 出 = ,计算 它们 的 累加 结果 ,得 到 
一 个 平均 m 位 向 量 z ,表示 为 





(2) 通过 猜测 恢复 原始 的 输入 向 量 。 设 猜测 值 为 向 量 y, 则 y 的 每 一 位 定义 如 下 : 





1 = 
2,20 

Vm i 

Ny — — 

z; <0 





在 上 述 协议 算法 中 ,每 一 个 候选 项 对 应 一 个 特定 字符 串 编 码 。 每 个 用 户 随机 选取 其 中 一 位 
(第 j 位 ) 进 行 随机 化 处 理 , 其 他 位 直接 设置 为 0。 如 果 用 户 支持 该 选项 , 则 以 相对 优势 概率 
保留 原 值 ;而 如 果 用 户 不 支持 该 选项 , 则 以 等 概率 随机 选择 两 者 之 一 。 这 样 , 当 大 多 数 用 户 
支持 该 选项 时 ,最 终结 果 可 以 恢复 出 原 编码 ,并 估计 出 支持 用 户 所 占 比例 。 

在 前 面 步骤 中 提 到 的 编码 机 制 的 目的 是 减少 随机 化 产生 的 误差 ,该 协议 基于 如 下 原理 
引入 了 具有 压缩 与 纠 错 功能 的 编码 机 制 。 

定理 5-3(Johnson-Lindenstrauss 引 理 ) 假定 0—c— 1.4 € N ,U 是 一 个 包含 t 个 点 在 


R* 上 的 集合 ,mm 之 29 于。 那么 存在 一 个 线性 映射 B: Ri 一 R", 对 于 任意 x,yEU, 都 满足 以 
FAR: 
a—o0lz—»yl£sleixc—»y»lisza-colz-»li£ 


基于 定理 5-3 可 定义 如 下 编码 机 制 。 
定义 5-37 (二 进 制 (2',m,6) 编 码 )” 它 是 一 个 映射 对 (Enc,Dec)。 其 中 ,Enc: (1.2. 














1 1 m 
20] ———, 结 元 ^i gu. 
4,72!) { 7 万 | ,结果 集 C 中 的 任何 元 素 zx a 满足 如 下 距离 约束 : 
min lz—z’ ll, > ave 
等 价 于 
max(G.z') x: 1— 2t 
TozEC 
nb d qt. 人 " 
WW Dees [77] 244, ose | Tm} 中 的 元 素 映射 为 原始 码 字 。 


在 上 述 定 义 中 ,5 是 与 码 字 距 离 相 关 的 参数 ,(2: m ,5 编码 可 以 恢复 汉 明 距离 在 mC/2 
人 1 /log(a/B) 
之 内 的 码 字 错 误 。 编 码 后 频率 统计 误差 上 界 为 o(1 meam], Hh e 是 隐私 参数 ,8 
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是 概率 参数 。 

SH 基础 协议 中 为 了 判定 个 候选 项 中 哪些 是 频繁 项 ,直观 的 解决 办 法 是 为 每 个 候选 
项 都 设 一 个 单独 的 投票 通道 。 每 个 用 户 同 时 对 n 个 候选 项 投票 ,将 SH 基础 协议 重复 执行 
n 次 ,这 样 对 于 用 户 的 计算 要 求 比较 高 ,并 且 还 会 造成 较 大 的 传输 开销 。 为 了 更 有 效 地 执行 
多 选项 投票 问题 ,SH 协议 采用 Hash 函数 ,巧妙 地 利用 同 概率 分 布 随机 变量 ,提出 了 一 个 1 
比特 协议 ,将 用 户 终 端 向 服务 器 传输 的 信息 量 可 以 优化 为 1b, 大 大 减少 了 数据 传输 量 。 该 
协议 的 核心 步骤 如 下 : 

(1) 服务 器 生成 个 独立 随机 的 0-1 FEE yi A CIO ye 7A CDD mes ACIDO KE 
HA, ,A, ,…,A, 是 用 户 可 使 用 的 随机 化 算法 。 公 开发 布 这 些 字符 串 。 

(2) 用 户 i 根据 自己 的 选项 wv; 以 及 公开 字符 串 w 计算 出 相关 概率 p;, 并 以 概率 p; 进 
行 一 次 贝 努 里 实验 ,将 结果 6b;(0 或 1) 发 给 服务 器 。 


js 1 PiA;(w) = y] 
‘ 2 PrLAi( 1) = yd 


(3) 如 果 服 务 器 收 到 的 结果 为 1, 则 将 y; 加 到 统计 结果 中 。 后 续 过 程 与 前 面 的 协议 
相同 。 
在 这 里 ,用 户 虽 然 只 输入 了 一 位 5, 但 在 0; = 1 时 的 y; 概率 分 布 与 Ai(Cu) 的 概率 分 布 
相同 : 
Pr[A;(1) = y; | b: = 1] = PrLAi QD = yid 
用 户 以 p; 概率 输出 1 可 以 视 为 用 户 以 p; 概率 输出 y; HARS F SH 基础 协议 。 


5.5.3 基于 差分 隐私 的 轨迹 隐私 保护 


随 着 智能 手机 与 可 穿戴 设备 的 普及 , 越 来 越 多 的 厂商 有 能 力 采集 大 量 用 户 的 实时 位 置 
数据 ,通过 学 习 人 群 移动 轨迹 特征 、 兴 趣 以 及 目的 预测 ,实现 城市 交通 规划 .个 性 化 广告 推荐 
等 功能 。 但 用 户 真 实 轨迹 数据 包含 大 量 隐 私 属性 ,在 发 布 与 使 用 之 前 应 经 过 足够 的 隐私 保 
护 技 术 处 理 。 差 分 隐私 模型 是 当前 最 严格 和 完善 的 隐私 保护 模型 ,经 过 差分 隐私 保护 技术 
处 理 后 的 用 户 轨迹 数据 可 在 有 效 保 护 用 户 隐私 的 前 提 下 帮助 厂商 发 布 和 使 用 用 户 轨迹 
数据 。 

l. 集中 式 差分 隐私 轨迹 保护 方法 

文献 L[109] 提 出 了 一 种 差分 隐私 轨迹 (Differential Private Trajectory, DPT) 保 护 方 法 。 
其 核心 思想 是 : 将 所 有 用 户 轨迹 汇集 成 轨迹 数据 集 ,在 保持 数据 集 总 体 统计 特征 稳定 的 基 
础 上 ,产生 新 的 轨迹 来 替代 原始 轨迹 , 且 新 数据 集 满足 差分 隐私 安全 定义 。 系 统 采用 前 绥 树 
(prefix tree) 结 构 来 描述 所 有 轨迹 集合 ,对 该 树 上 的 节点 进行 加 品 处 理 与 剪 枝 处 理 后 ,抽样 
合成 新 轨迹 。 整 个 系统 的 处 理 流 程 如 图 5-32 所 示 。 

假设 拥有 一 个 轨迹 数据 集 D, 其 中 包含 着 若干 条 轨迹 i, 那么 ,其 主要 处 理 步骤 如 下 : 

CD 层次 参考 系统 映射 (hierarchical reference systems mapping)。 系 统 中 包含 M 个 不 
同 层 次 的 参考 坐标 系统 ,每 个 层次 代表 一 个 不 同 粒度 的 地 理 网 格 结构 ,表示 为 HRS {3。， 
Sop ott Dey, )。 任 何 一 条 轨迹 都 根据 其 移动 速度 的 差异 被 分 为 多 个 片段 ,分 别 被 映射 到 不 同 
层次 的 参考 系统 中 ,这 样 可 以 兼顾 不 同类 型 的 轨迹 对 粒度 的 要 求 。 

(2) 前 级 树 构造 (prefix tree construction) 。 将 每 一 个 参考 系统 中 的 轨迹 构造 成 一 棵 前 
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合成 新 的 轨迹 


用 户 原始 轨迹 





前 缓 树 构造 及 
树 模型 选择 


图 5-32 DPT 系统 处 理 流程 





组 树 , HRS> {Ti ,T,,… ,Tuv)。 该 前 级 树 的 特殊 性 在 于 每 个 节点 有 两 种 类 型 的 孩子 节点 : 
一 类 是 在 同一 层次 系统 下 的 9 个 孩子 节点 ,表示 下 一 步 将 移动 至 某 个 相 邻 节点 ; 另 一 类 是 
M 个 孩子 节点 ,表示 下 一 步 将 移动 到 其 他 参考 系统 。 

(3) 模型 选择 (model selection) 。 每 一 棵 树 都 代表 一 个 模型 ,在 M 棵 树 中 挑选 出 合适 
的 树 ,并 且 确 定 每 棵 树 的 高 度 。 

(4) 添加 噪声 (noise infusion)。 对 每 棵 树 的 每 个 节点 都 添加 不 同 分 布 的 拉 普 拉 斯 品 
声 , 实 现 差分 隐私 保护 。 

(5) 前 枝 (pruning)。 添 加 噪声 处 理 过 程 可 能 导致 树 中 某 些 节点 的 计数 为 负 值 或 者 非 
常 小 ,不 利于 后 续 操 作 。 本 步骤 根据 树 的 信息 设置 阔 值 对 其 进行 剪 枝 , 优 化 树 的 结构 ,提高 
处 理 速度 。 

(6) 合成 轨迹 的 抽样 方法 (sampling)。 从 树 结构 中 提取 合成 新 的 轨迹 ,在 合成 过 程 中 ， 
已 经 合成 的 轨迹 的 方向 对 下 一 个 点 的 抽样 选择 有 权重 的 影响 。 

采用 不 同 参考 系统 意味 着 采用 不 同 粒度 的 网 格 结构 来 蔡 代 原始 轨迹 中 的 每 个 具体 位 置 
点 ,使 轨迹 变 得 规则 化 。 其 形式 化 定义 如 下 。 

定义 5-38( 7E KF reference system) 空间 中 所 有 连续 点 的 集合 为 三 ,参考 系统 包括 
一 个 离散 点 集 CS, 和 一 个 映射 函数 fix. 

定义 5-39( 层 次 参考 系统 ,hierarchical reference systems) 4 X, 表示 长 度 为 v 的 网 格 
结构 的 参考 系统 ,那么 层次 参考 系统 就 是 HRS= (X, X, ott XS) UP v1 San << 
并 且 对 于 任意 点 a€£E, .都 有 

(1) 其 位 于 Zo (m >m) IRA FE >. PEN a 最 近 的 点 : 

par(a.X,, )= argmind (a^ a) 


(2) 其 位 于 3, ,lm 二 m) 的 子 节点 是 
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children(a .X,. )— {a’ € E,, | par(a’ ,3 ) =a} 

在 将 原始 轨迹 都 映射 到 HRS 的 网 格 结构 的 过 程 中 ,我 们 希望 能 够 为 每 个 原始 轨迹 点 
选择 合适 的 层次 ,所 以 连续 的 轨迹 点 可 能 处 于 同一 层次 ,也 可 能 处 于 不 同 层次 (父子 关系 的 
层次 ) ,具体 的 选择 取决 于 用 户 在 此 轨迹 点 的 平均 速度 。 

每 一 层 参考 系统 中 的 所 有 轨迹 片段 能 构建 出 一 棵 前 级 树 : HRS UD T2 em Tu). H 
特点 如 下 : 

(1) 根 节点 不 包含 字符 ;除根 节点 外 ,每 一 个 节点 都 只 包含 一 个 地 理 位 置 。 

(2) 将 从 根 节点 到 某 一 节点 的 路 径 上 经 过 的 地 理 位 置 连接 起 来 ,为 该 节点 对 应 的 一 段 
轨迹 。 

(3) 每 个 父 节点 的 所 有 子 节点 代表 的 地 理 位 置 都 不 相同 。 

每 一 棵 前 级 树 都 有 一 个 相同 的 高 度 &, 表 示 最 多 支持 & 阶 马尔 可 夫 过 程 。 树 的 第 二 层 
后 的 节点 都 包含 9 十 M 个 子 节点 ,由 于 假设 用 户 的 轨迹 具有 连续 性 ,不 会 出 现 剧 烈 的 跳跃 情 
况 , 所 以 9 代表 在 同一 参考 系统 下 的 3X3 的 邻居 网 格 ;M 表示 轨迹 的 速度 发 生变 化 ,从 本 
参考 系统 跳跃 到 其 他 参考 系统 的 父 节 点 或 子 节点 。 

先 描述 一 条 轨迹 , 它 分 为 3 段 ,分 别 在 RS2, RS3 和 RS2 这 3 个 参考 系统 中 ,轨迹 为 
(0(3,004 (4.002 (4.102 (51102 (2.005 (2,00, (3.004 (4.004 (5.005 (64104 (6:104 (651)5 
(13,32; ; @@(13,3),(13,4),(13,5),(14,6),。 将 这 条 轨迹 添加 到 RS2 构造 的 前 级 树 中 ,可 
以 得 到 图 5-33。 




























































































RS 集合 的 根 节点 
(4,1)| … |(14,6)| … | stop RS2stop 
1 1 1 1 
stay in RS2 leave RS2 stay in RS2 leave RS2 
DIG DG D] … s uL … 046) 

1 1 

Stay in RS2 leave RS2 
(4, 1)(5, DRS2 
1 1 























图 5-33 ”轨迹 添加 到 前 缀 树 对 节点 计数 的 影响 


对 于 (4,1)s 这 个 地 理 位 置 ,会 在 第 一 层 ( 将 根 节点 看 作 第 0 层 ) 节 点 中 对 (4,1) 的 计数 
加 1; 对 于 (4,1),(5,1)s 这 个 2 元 模型 ,会 在 第 二 层 节点 中 对 (4,1)(5,1) 的 计数 加 1; 对 于 
(4,1)a(5,1)s(2,0) 这 个 3 元 模型 ,由 于 (2,0)s 属于 RS3, 故 转换 成 X, ,最 终 在 第 三 层 节 
点 (4,1)(5,1)3。 的 计数 加 1。 这 样 就 可 以 将 这 条 轨迹 添加 到 RS2 对 应 的 前 绥 树 中 。 

在 真正 对 每 棵 前 缀 树 的 每 个 节点 的 计数 添加 差分 隐私 噪声 之 前 ,可 以 先 分 析 添 加 噪声 
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会 造成 的 总 误差 ,通过 对 误差 进行 分 析 ,筛选 出 合适 的 树 并 且 进 一 步 确 定 树 的 高 度 。 我 们 当 
然 希望 能 够 选择 出 所 有 树 ,这 样 可 以 捕捉 到 所 有 的 轨迹 特征 ,但 是 也 会 导致 在 同一 隐私 度量 
环境 下 添加 的 噪声 过 多 ,导致 总 误差 变 大 ,数据 可 用 性 降低 。 
令 一 棵 前 级 树 T, 的 节点 为 xz ,其 计数 为 c(D,zx), 总 隐私 预算 为 e, 树 的 高 度 为 ,那么 
对 这 棵 树 添 加 的 所 有 噪声 可 以 被 记录 为 
Nu (ek) — E| X (c(D,z) 一 5(D,z))2]= X Varte-k. 2) 


ETn 2€T, 
S cm(D) 表 示 在 参考 系统 E, 的 第 一 层 节点 的 全 部 计数 。 那 么 cm CD)? 就 是 添加 噪声 
的 上 界限 ,所 以 去 掉 一 棵 树 产 生 的 误差 的 上 确 界 是 
k X cn (D)? 
这 时 将 隐私 预算 分 配 为 两 部 分 ,e 二 es 十 e; ,其 中 6。 是 选择 树 造成 的 噪声 ,e, 是 差分 隐私 
拉 普 拉 斯 算法 添加 的 噪声 , 则 总 噪声 为 
Error(F* sesk D)= >) N,(e.k)- > kXc, (D)! 


T,, €F* T, € ril pt 
此 时 的 目标 就 是 通过 搜索 算法 找 出 能 使 Error 最 小 的 参数 F+ 和 有。 虽然 无 法 确保 得 到 最 
优 解 ,但 是 可 以 得 到 一 些 比较 实用 的 解 。 

确定 好 模型 的 结构 ,包括 前 绥 树 的 数目 和 其 高 度 之 后 ,就 可 以 对 每 棵 树 的 节点 的 计数 添 
加 拉 普 拉 斯 噪声 。 添 加 噪声 需要 知道 全 局 敏感 度 Af。 本 文 使 用 权重 的 方法 ,使 每 条 轨迹 不 
论 长 短 , 对 于 节点 计数 的 总 贡献 都 相同 ,例如 长 度 为 h 的 轨迹 ,那么 它 的 每 个 轨迹 点 对 树 
的 贡献 为 1/h。 这 样 可 以 保证 全 局 敏感 度 和 Af 二 ,因为 一 条 轨迹 对 所 有 树 的 同一 层 节点 的 
总 贡献 之 和 最 多 为 1 ,而 一 共有 上 层 , 所 以 全 局 敏感 度 为 &。 由 Af 和 就 可 以 计算 具体 添加 
的 噪声 大 小 了 。 

在 每 一 棵 添加 过 噪声 的 前 缀 树 中 ,很 大 一 部 分 节点 的 计数 初始 值 为 0, 添加 噪声 后 也 接 
近 0。 这 一 部 分 节点 对 于 生成 新 的 轨迹 毫 无 作用 ,可 以 通过 设置 阔 值 的 方法 将 这 些 节点 减 
去 。 阅 值 可 以 依据 自身 要 求 确定 。 剪 枝 之 后 ,大 大 简化 了 后 面 合 成 轨迹 的 难度 ,提高 了 准 
确 度 。 

此 后 ,可 以 通过 每 一 个 前 缀 树 合 成 新 的 轨迹 。 由 于 前 缀 树 的 每 个 节点 都 代表 一 种 轨迹 
片段 ,其 计数 表示 该 轨迹 片段 出 现 的 次 数 , 所 以 很 容易 将 其 转换 为 概率 前 级 树 。 通 过 概率 前 
级 树 ,使 用 抽样 方法 从 中 抽取 节点 ,使 其 重新 构造 出 新 的 轨迹 。 在 抽样 方法 中 ,可 以 根据 一 
些 需求 (方向 一 致 性 等 ) 加 以 改进 ,使 抽样 结果 更 加 准确 。 

文献 [109] 给 出 了 在 两 个 轨迹 数据 集 上 的 实验 结果 : 

(1) 出 租车 数据 集 , 记 录 了 中 国 北京 8602 台 出 租车 在 2009 年 3 月 的 道路 轨迹 ,经 纬度 
为 (39.788"N,116.148"W) 一 (40. 093"N,116.612"W), 即 34kmX40km, 其 中 包含 了 约 430 
万 条 独立 轨迹 ,轨迹 中 的 相 邻 地 点 的 时 间 间 隔 30s。 

(2) 网 格 数据 集 ,记录 了 大 约 50 000 个 用 户 在 德国 奥 尔 登 堡 的 出 行 轨迹 ,范围 为 
9kmX10km。 

该 实验 从 3 个 角度 进行 评估 : 

CD 轨迹 的 直径 的 分 布 规律 。 每 条 轨迹 都 可 以 用 一 个 圆 包括 , 圆 的 直径 就 是 轨迹 的 直 
径 ,一 个 数据 集中 所 有 轨迹 直径 的 分 布 是 有 意义 的 。 
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(2) 轨迹 的 起 点 和 终点 的 匹配 度 。 原 始 轨迹 有 若干 条 从 as 出 发 .终点 到 a 的 轨迹 ,合成 
轨迹 中 有 若干 条 从 as 出 发 .终点 到 a 的 轨迹 ,从 概率 上 计算 这 两 者 的 匹配 度 。 

(3) 频繁 模式 。 计 算 原 始 轨迹 和 合成 轨迹 的 频繁 序列 ,计算 准确 率 和 召回 率 , 最 后 比较 
Fl-score。 与 此 前 的 其 他 前 级 树 的 方法 "" 相 比 ,效果 有 显著 提升 : 在 轨迹 直径 分 布 的 误差 
方面 提升 近 80% ,在 起 点 ,终点 匹配 度 方面 提升 60% ,Fl-score 提升 40%。 在 相同 的 隐私 预 
算 的 前 提 下 ,大 大 提高 了 轨迹 数据 的 可 用 性 。 


2. 本 地 差分 隐私 轨迹 保护 方法 

上 面 介绍 的 集中 式 差 分 隐私 轨迹 保护 方法 要 求 轨迹 的 发 布 者 (服务 提供 商 ) 可 人 和信。 而 当 
用 户 选择 只 有 自己 才能 掌握 自己 的 真实 轨迹 ,而 不 完全 信任 服务 提供 商 时 ,可 以 采用 本 地 差 
分 隐私 技术 对 个 人 轨迹 数据 进行 处 理 。 此 时 ,服务 器 收 到 的 是 一 些 加 噪 变换 后 的 轨迹 ,但 仍 
可 以 对 其 进行 有 意义 的 学 习 。 

文献 [111] 首 先 分 析 了 以 下 问题 ; 仅 对 位 置 进行 模糊 化 处 理 时 ,如 果 攻 击 者 知道 用 户 的 
状态 转移 概率 , 则 用 户 真实 位 置 会 被 暴露 。 攻 击 者 可 以 根据 已 知 的 用 户 在 上 时 刻 的 位 置 六，、 
用 户 的 转移 模式 (如 转移 矩阵 ) 以 及 用 户 所 提交 的 :十 1 时 刻 的 “ 假 ”( 保 护 过 的 ) 地 理 位 置 
bea ,更 准确 地 推测 用 户 在 :十 1 时 刻 的 真实 地 理 位置 Ps+ 。 

如 图 5-34 所 示 ,用 户 连续 3 个 时 刻 发 布 了 3 SS E Cp.» pos ps) ,然后 分 别 对 它们 
进行 空间 隐藏 保护 ,发布 3 个 粗 粒度 的 模糊 化 区 域 Norn b 
(图 中 标 有 1、2、3 的 圆圈 ) 。 如 果 攻 击 者 掌握 额外 
信息 ,有 一 条 公路 连接 着 这 3 个 模糊 化 区 域 , 或 者 
知道 用 户 的 移动 模式 一 一 出 学 校 只 可 能 去 购物 或 
者 喝 咖啡 。 那 么 发 布 这 3 个 模糊 化 区 域 依旧 会 导 
致 用 户 的 ps 就 在 咖啡 店 的 事实 被 泄露 。 

本 地 差分 隐私 轨迹 保护 方法 基本 思想 是 ,用 
户 在 提交 轨迹 信息 之 前 ,依次 按照 时 间 顺 序 对 每 
一 个 地 理 位 置 进行 处 理 , 以 满足 差分 隐私 的 k- o East 
norm 方法 添加 干扰 ,将 处 理 后 的 地 理 位 置 重新 连 图 5-34 ”轨迹 隐私 泄露 场景 
接 成 一 条 轨迹 ,将 这 条 新 生成 的 轨迹 上 传 给 服务 
器 ,同时 尽 可 能 保证 轨迹 数据 的 可 用 性 。 本 模型 主要 实现 3 个 目标 : 首先 ,确定 攻击 者 所 具 
有 的 推测 能 力 ; 其 次 ,针对 其 能 力 确定 应 该 添加 噪声 的 大 小 ;最 后 ,确保 添加 噪声 能 够 保护 数 
据 , 同 时 也 能 够 具有 极 强 的 可 用 性 。 下 面 分 别 予 以 介绍 。 

1) 问题 描述 及 攻击 者 推测 模型 

每 一 个 用 户 的 马尔 可 夫 模 型 是 推测 模型 的 重要 组 成 部 分 , 它 能 够 很 好 地 描述 个 体 移动 
轨迹 特征 。 假 定 攻击 者 不 知道 用 户 将 发 布 的 真实 轨迹 ,只 能 看 到 添加 噪声 后 的 伪造 轨迹 。 
但 攻击 者 预知 目标 用 户 的 移动 轨迹 构造 的 马尔 可 夫 模 型 (为 了 简化 问题 ,不 考虑 包括 路 况 信 
息 在 内 的 其 他 额外 信息 ) 以 及 位 置 的 发 布 概率 。 

为 了 描述 用 户 移 动 轨迹 模式 ,用 p. 来 表示 用 户 t 时 刻 位 于 N 个 地 理 位 置 的 概率 。 例 
如 ,车 用 户 在 t 时刻 只 可 能 在 {52 ess esc ss} 这 4 个 位 置 ,上 且 在 这 4 个 位 置 的 概率 相同 ,那么 p. 
可 以 表示 为 
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bi [oF 0,0,0, 4,4,0,0] 


转移 概率 用 和 矩阵 M 来 表示 ,其 中 mi 表示 用 户 上 一 个 地 理 位 置 为 ;;、 下 一 个 地 理 位 置 为 
s; 的 概率 。 则 有 p, pM. 

攻击 者 所 掌握 的 发 布 概率 含义 是 : 假设 1+ 时刻 有 一 个 真实 的 地 理 位 置 ui ,添加 噪声 之 
后 变 为 x,, 则 PrG luz =s,) 就 是 发 布 概率 。 

在 上 :时刻 , 用 pr 和 jz 来 表示 攻击 者 观测 到 x, 前 后 对 用 户 位 置 进行 推测 的 先 验 概率 和 
后 验 概率 。 由 转移 概率 矩阵 可 推断 pr 二 pM。 那么 对 于 攻击 者 来 说 ,在 给 出 = 时 ,推测 
用 户 在 t 时 刻 所 在 地 理 位 置 ;; 的 概率 就 可 以 使 用 贝 叶 斯 公式 表示 为 

Pr(z, | ur = s:)pr li] 
X Prez lu = ser Li] 
上 述 公 式 就 是 攻击 者 模型 ,其 中 Pr(z,|ur =s: )p7 Li] 是 由 于 噪声 算法 而 公开 透明 的 。 

2) 本 地 差分 隐私 保护 模型 

一 种 直观 的 差分 隐私 保护 噪声 添加 方法 是 ,直接 对 地 理 位 置 的 坐标 数值 添加 拉 普 拉 斯 
噪声 。 但 地 理 位 置 随 机 偏 移 后 产生 的 新 位 置 和 原始 位 置 在 语义 和 位 置 连续 性 等 特征 方面 可 
能 存在 较 大 差异 ,导致 数据 可 用 性 下 降 。 这 里 采用 概率 选择 的 方法 ,以 一 定 概率 在 一 个 地 理 
位 置 集合 中 选择 一 项 蔡 换 真 实 的 地 理 位 置 。 

(D 5 地 理 位置 集 合 。 

由 于 我 们 假设 的 攻击 者 模型 中 包含 用 户 的 概率 转移 矩阵 M, 那 么 可 以 认为 车 攻击 者 知 
道 用 户 上 一 个 时 间 点 :一 1 所 在 的 位 置 ,他 大 概率 会 依据 M 推测 用 户 下 一 个 地 理 位 置 的 大 
致 选择 范围 (如 只 可 能 在 A.B.C.D 这 4 个 位 置 ) ,所 以 我 们 在 保护 轨迹 时 要 依据 这 个 M 来 
选择 添加 干扰 项 的 范围 ,以 此 来 扰乱 攻击 者 。 

根据 上 面 的 要 点 ,在 任意 一 个 时 刻 t, 都 会 根据 该 时 刻 的 真实 地 理 位 置 产生 一 个 人 地理 
位 置 集合 (6-location set) AX, ,来 描述 攻击 者 推测 的 地 理 位 置 选 择 范 围 。 

定义 5-40 6- 地理 位 置 集合 ) ^ p dena 时 刻 用 户 所 处 位 置 的 先 验 概率 ,对 于 其 中 
n 个 位 置 的 先 验 概 率 , 若 先 验 概率 超过 1-6, 就 将 其 添加 到 地 理 位置 集合 中 。 用 公式 表 
示 为 








bi [ilS Pr(w = si | z) 


AX, = min(s, | 2)p7 [i] 1 — 8) 


虽然 5- 地 理 位 置 集合 包括 用 户 最 可 能 处 于 的 位 置 ,但 其 缺点 可 能 是 真实 地 理 位 置 反 而 
不 在 集合 中 ,所 以 将 这 种 情况 定义 为 漂移 (drift)。 当 漂移 出 现时 ,会 用 距 真实 地 理 位 置 最 近 
的 8- 地 理 位 置 集合 的 点 替换 真实 地 理 位 置 。 

(2) 敏感 度 壳 。 

差分 隐私 的 全 局 敏感 度 部 分 决定 了 算法 添加 噪声 的 方式 ,在 先前 的 工作 中 ,都 是 使 用 
L1-norm 来 确定 ,但 是 可 能 会 造成 全 局 敏感 度 选 取得 偏 大 。 对 于 一 个 二 维 地 理 坐标 , 若 真实 
位 置 坐标 f Gn — [a0]. 5829 (00.1. — 1) , 则 全 局 敏感 度 的 集合 为 
Af = f(a1)— f(a) = [L{1,1},{0,1},{0,0},{1,0},{—1,0},{—1,—1},{0,—1)] 
如 果 使 用 Ll-norm 来 确定 全 局 敏感 度 . 则 

Af=2 
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但 是 明显 看 到 {1, 一 1}),{ 一 1,1),{0,2} 等 不 可 能 出 现 , 所 以 确定 的 Af 偏 大 ,导致 添加 的 噪 
声 不 准确 。 所 以 可 以 用 一 个 新 的 概念 一 一 敏感 度 过 (sensitivity hull) 来 描述 这 种 全 局 敏感 
度 ,如 图 5-35 所 示 。 











图 5-35 KERER 


定义 5-AL CS RR E SO — 对 于 一 个 查询 请, 敏感 度 壳 是 一 个 对 于 Af NSE. AS 是 六 地 
理 位 置 集 合 中 任意 点 对 zk 和 zs 的 f(zi) 一 f(x: ) 的 集合 。 
K = Conv(Af) 


Af= U f) fle) 


nae 


使 用 敏感 度 壳 来 替代 前 面 的 二 维 坐标 敏感 度 计 算 方 法 。 

3) 平面 各 向 同性 方法 

MON T 8- 地 理 位 置 集合 并 且 依 据 其 计算 出 敏感 度 壳 后 ,现在 需要 在 敏感 度 壳 所 包含 的 
所 有 地 理 位 置 中 ,依据 不 同 的 概率 算出 一 个 伪造 的 地 理 位 置 蔡 换 真实 地 理 位 置 并 发 布 出 去 。 
依据 经 典 的 K-norm Jr 15019 (根据 候选 集 分 布 概率 添加 噪声 ) ,可 以 先 将 敏感 度 壳 (维度 为 
2) 转换 到 各 向 同性 位 置 空间 中 ,得 到 下 述 定理 。 

定理 $-4( 各 向 同性 误差 ) 如 果 敏 感度 壳 K 是 C- 近 似 各 向 同性 ,那么 K-norm 方法 的 
误差 是 O(C)LB(K), 其 中 LB(K) 是 差分 隐私 所 造成 的 误差 。 

在 各 向 同性 位 置 空间 中 ,均匀 选择 需要 添加 的 噪声 的 大 小 。 

4) 整体 流程 

根据 以 上 的 理论 ,平面 各 向 同性 方法 分 为 4 个 步 又 : 

CD 依据 t+ 时 刻 用 户 的 当前 真实 轨迹 点 (图 5-36) ,得 到 地理 位 置 集合 AX,。 

(2) 由 原始 的 地 理 位 置 集合 AX, 计算 其 对 应 的 敏感 度 壳 天 (图 5-37)。 

(3) 将 敏感 度 壳 K 转换 成 各 向 同性 位 置 空间 开 , 。 使 用 K-Norm 方法 得 到 一 个 随机 的 
待 添加 的 噪声 = (图 5-38) 。 
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图 5-36 (RIÉDBIO-HOGS LEES AX, ,五 角 星 是 真实 地 理 位 置 


KÌ latitude 











longitude 
5-37 计算 得 到 敏感 度 克 
| latitude 
longitude 








图 5-38 各 向 同性 空间 K, ,z 为 抽样 得 到 的 噪声 大 小 
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CA) 将 随机 点 >’ 转换 到 原始 空间 ,在 真实 的 地 理 位置 上 添加 这 个 噪声 ,假设 真实 地 理 位 
TUM p^ ,发 布 的 地 理 位 置 是 p^ LU] 

p =p +2! 
发 布 p' 替 代 真 实地 理 位 置 p* 。 

由 于 要 发 布 个 人 轨迹 数据 ,所 以 使 用 的 数据 集 是 很 少 一 部 分 人 的 长 期 轨迹 数据 。 

(1) Geolife 数据 。 微 软 公司 在 北京 用 穿戴 设备 收集 的 182 名 用 户 长 达 3 年 的 轨迹 , 轨 
迹 的 网 格 大 小 设置 为 0.34kmX0.34km。 

(2) Gowalla 签到 数据 。 包 括 196 586 名 用 户 在 1 年 多 时 间 所 产生 的 6 442 890 个 位 于 
洛杉矶 的 签到 地 点 ,由 于 是 签到 数据 ,轨迹 中 相 邻 地 点 的 时 间 间 隔 可 能 会 比较 大 (1 一 
50min) 。 

评价 标准 主要 有 以 下 两 个 : 

CD 通过 K- 近 邻 查询 ,比较 真实 轨迹 和 实施 隐私 保护 后 的 轨迹 的 K- 近 邻 查 询 结 果 , 计 
算 准确 率 和 召回 率 。 

(2) 比较 发 布 的 轨迹 和 原始 轨迹 的 距离 的 平方 和 。 在 相同 的 隐私 预算 的 前 提 下 ,与 直 
接 对 地 理 位 置 添 加 拉 普 拉 斯 噪声 的 方法 做 对 比 , 本 方法 在 K- 近 邻 查 询 的 准确 率 和 召回 率 上 
均 提 高 了 10 个 百分点 左右 ,在 距离 的 平方 和 上 误差 显著 减少 。 





5.6 注 记 与 文献 


本 章 重点 介绍 了 数据 隐私 保护 的 几 类 典型 的 攻击 和 保护 方法 ,包括 针对 身份 隐私 、 属 性 
隐私 、 社 交 关 系 隐私 和 轨迹 隐私 的 不 同 处 理 方法 。 但 是 ,用 户 隐私 从 来 不 是 一 个 孤立 的 问 
题 。 可 以 单独 讨论 用 户 的 身份 隐私 、 属 性 隐私 ,但 是 在 复杂 的 数据 环境 中 ,尤其 是 随 着 大 数 
据 技术 的 发 展 ,我 们 在 数据 隐私 保护 的 过 程 中 必须 认识 到 ,关于 用 户 的 这 些 知 识 是 相互 联 
系 、 相 互 作用 的 ,任何 单一 维度 的 数据 处 理 均 难 以 实现 用 户 隐私 保护 的 目的 。 

本 章 针 对 传统 的 表 结 构 数 据 ,首先 讨论 了 用 户 身份 匿名 和 属性 匿名 的 需求 ,并 提出 了 经 
典 的 及 匿 名、 全 多样 化 大 贴近 、nr 不 变 等 模型 。 但 是 ,这 些 模 型 提供 的 保护 大 多 受 限于 用 户 
所 在 的 同一 等 价 类 的 大 小 和 属性 分 布 特征 。 典 型 地 ,及 匿 名 模型 保证 用 户 被 识别 的 概率 为 
1/k。 这 一 阶段 的 相关 研究 开始 得 很 早 , 也 为 后 续 的 社交 网 络 数 据 和 轨迹 数据 分 析 保护 提供 
了 很 好 的 借鉴 ,但 是 理论 性 相对 不 足 。 

社交 网 络 数 据 包含 更 丰富 的 用 户 社交 结构 信息 和 属性 信息 ,其 隐私 保护 处 理 过 程 也 更 
复杂 。 首 先 ,社交 网 络 的 图 结构 社交 关系 数据 是 新 型 隐私 保护 数据 类 型 ,吸引 了 大 量 研究 者 
的 关注 。 在 早期 的 社交 网 络 隐私 保护 研究 中 ,大 部 分 论文 仅 研究 了 针对 图 结构 的 用 户 重 识 
别 和 隐私 保护 方案 ,而 完全 忽略 了 用 户 属性 数据 的 研究 。 其 次 ,由 于 用 户 之 间 具 有 社交 关 
系 , 其 属性 数据 也 表现 出 相应 的 相关 性 ,而 不 是 像 传统 表 结 构 数据 那样 仅 能 表现 全 表 的 属性 
分 布 特征 ,这 也 是 社交 网 络 隐 私 保护 的 难点 。 在 后 续 研究 中 ,人 们 也 越 来 越 关注 社交 网 络 中 
的 社交 结构 数据 和 属性 数据 相 结合 的 问题 ,具体 表现 在 社交 网 络 中 的 用 户 属性 推测 和 保护 
研究 。 

轨迹 数据 作为 近年 来 迅速 增长 的 大 数据 类 型 ,表现 出 了 强烈 的 个 性 化 和 规律 化 特征 。 
研究 发 现 , 仅 用 极 少 的 点 即 可 实现 类 似 指 纹 识别 的 用 户 识别 效果 。 而 且 用 户 行为 表现 出 明 
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显 的 周期 性 和 重复 性 。 为 此 ,相关 研究 集中 于 用 户 活 动 规律 的 挖掘 ,分 析 用 户 行为 的 时 空 特 
征 , 对 用 户 活动 进行 相应 的 预测 和 轨迹 的 重 识别 。 相 对 来 说 ,对 于 轨迹 匿名 的 研究 尚 缺 少 突 
破 性 的 进展 。 随 着 用 户 数 据 的 丰富 ,单纯 地 通过 地 理 位 置 泛 化 实现 用 户 轨 迹 匿名 已 经 越 来 
越 不 可 能 。 人 们 试图 在 时 空 关系 、 社 交 关 系 等 多 个 维度 分 析 用 户 轨 迹 的 特征 ,最 终 实现 用 户 
间 不 可 区 分 与 轨迹 数据 可 用 性 间 的 平衡 。 


差分 隐私 技术 是 目前 最 严格 的 隐私 保护 模型 。 与 前 面 提 到 的 所 有 方案 不 同 , 它 在 最 充 


分 的 攻击 者 能 力 模型 的 基础 上 研究 用 户 隐私 泄露 的 程度 和 保护 方案 。 本 章 介 绍 了 差分 隐私 
的 基本 定义 和 相关 研究 以 及 本 地 差分 隐私 的 两 个 协议 ,代表 了 目前 差分 隐私 的 主要 研究 方 
向 。 其 中 部 分 内 容 参 考 了 文献 [113,114]。 感 兴趣 的 读者 还 可 进一步 参阅 文献 [115,116]。 
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